周末下雨沒法出門,刷刷豆瓣看看妹子,本想拿以前腳本下載點圖片,結果發現運行失敗,之前版本為《python--批量下載豆瓣圖片》,報錯HTTP Error 403: Forbidden,網上一堆的文章都是寫在request的header中添加User-Agent模擬瀏覽器請求就可以解決,但毫無卵用!
在調試過程中無意發現,及時在瀏覽器地址欄中手動輸入圖片地址,也出現430 Forbidden的提示,百度一上午沒找到答案,略微郁悶,考慮到手動能點擊鏈接能顯示圖片,于是想通過模擬瀏覽器操作的方式來自動保存圖片,百度一下午Selenium WebDriver,發現圖片也顯示出來了,就是沒法右鍵保存,百度又是人云亦云的那些東西,折騰很久也沒成功。
今天靈光一線,既然手動點擊鏈接變可以,為啥通過地址欄輸入的鏈接就不行呢,兩種方式的地址完全相同,不存在手動點擊鏈接后鏈接變化的問題,那問題會不會就出在兩種請求所附帶的請求數據上,由于是get方式,請求數據都存放請求頭和URL鏈接中,通過Firefox的開發者工具>>開發者工具欄>>網絡選項可以看到請求頭內容:
嘗試在腳本中也增加請求頭中添加Referer項,發現程序順利通過,看來豆瓣通過這一項來判斷,就跟空手去人家婚禮蹭飯一樣,不弄個紅包裝一下,很可能會被打出來!
在圖片顯示窗口,右鍵“查看頁面信息”,也可以很容易找到引用URL一項:
代碼附上:
# -*- coding:utf8 -*- import urllib2, urllib, socket import re import requests from lxml import etree import os, time, random DEFAULT_DOWNLOAD_TIMEOUT = 30 def check_save_path(save_path): if not os.path.exists(save_path): os.makedirs(save_path) def get_image_name(image_link): file_name = os.path.basename(image_link) return file_name def get_image_id(file_name): file_id = file_name[0: file_name.rindex('.')] return file_id def save_image(image_link, save_path): file_name = get_image_name(image_link) file_id = get_image_id(file_name) file_path = save_path + "\\" + file_name print("準備下載{0} 到{1}".format(image_link, file_path)) try: headers = {} headers["User-Agent"] = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0' headers["Referer"] = 'https://site.douban.com/239506/widget/photos/190120540/photo/{0}/'.format(file_id) file_handler = open(file_path, "wb") req = urllib2.Request(url=image_link, headers=headers) opener = urllib2.build_opener() image_handler = opener.open(req).read() file_handler.write(image_handler) return True except Exception, ex: print(ex.args) print("下載文件出錯:{0}".format(ex.message)) return False def get_thumb_picture_link(thumb_page_link): try: html_content = urllib2.urlopen(url=thumb_page_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read() html_tree = etree.HTML(html_content) # print(str(html_tree)) link_tmp_list = html_tree.xpath('//div[@class="photo-item"]/a/img/@src') page_link_list = [] for link_tmp in link_tmp_list: page_link_list.append(link_tmp) return page_link_list except Exception, ex: print(ex.message) return [] def download_pictures(album_link, min_page_id, max_page_id, picture_count_per_page, save_path): check_save_path(save_path) min_page_id = 0 while min_page_id < max_page_id: thumb_page_link = album_link + "?start={0}".format(min_page_id * picture_count_per_page) thumb_picture_links = get_thumb_picture_link(thumb_page_link) for thumb_picture_link in thumb_picture_links: full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/raw") print('<img src="{0}"/>'.format(full_picture_link)) print("thumb:" + thumb_picture_link) full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/raw") save_flag = save_image(image_link=full_picture_link, save_path=save_path) if not save_flag: full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/photo") save_image(image_link=full_picture_link, save_path=save_path) time.sleep(1) min_page_id += 1 print("下載完成") # 設置圖片保存的本地文件夾 save_path = "E:\\PIC\\douban_11\\" # 設置相冊地址,注意以反斜杠結尾 album_link = "https://site.douban.com/239506/widget/photos/190120540/" # 設置相冊總頁數 max_page_id = 20 # 設置每頁圖片數量,默認為18張 picture_count_per_page = 30 download_pictures(album_link=album_link, min_page_id=1, max_page_id=max_page_id, picture_count_per_page=picture_count_per_page, save_path=save_path)
##====================================================================##
感嘆下,以前學html以及做網頁開發的時候,很少關心請求頭,頂多就知道GET和POST的區別,白白浪費一個周末研究,可惜!
幸好失敗是成功它媽媽,吃一塹長一智!
##====================================================================##
沒點好圖你們是不會罷休的,哇咔咔!
文章列表