萌新xpath的爬蟲，用著很舒服

阿新 • • 發佈：2018-10-25

擴展性 xpath tree 編輯器 () png 圖片編碼進制 trident

我用的是Pycharm編輯器，3.5的python。首先給大家看看源碼與成果
#####@Time:2018/10/25
br/>首先給大家看看源碼與成果
#####@Time:2018/10/25
import requests
from lxml import etree
headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}
html = requests.get("http://tu.duowan.com/tu", headers=headers).text

xpath_url = etree.HTML(html)
picture_url = xpath_url.xpath("//ul[@id=‘pic-list‘]/li/a/img/@src")
for i in picture_url:
picture_code = i[40:-4]
with open("./picture/%s.jpg" % picture_code, "wb") as file:
file.write(requests.get(i).content)

技術分享圖片

import requests
from lxml import etree
首先兩行導入兩個庫，為了接下來可以使用requests與xpath，不多解釋。

headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}
這一行是為了給爬蟲加一個頭，讓服務器認為自己是一個頭，接下來會被調用。

html = requests.get("http://tu.duowan.com/tu", headers=headers).text
requests.get(url).text的用法，獲取源碼,很常用，為了獲得源碼

xpath_url = etree.HTML(html)
picture_url = xpath_url.xpath("//ul[@id=‘pic-list‘]/li/a/img/@src")

第一行是為了將源碼轉換為xpath可以識別的格式，很重要，新人很容易忘記，導致後面出錯。第二行就是常規的xpath語法了。
想學可以進入下面這個鏈接看看http://www.w3school.com.cn/xpath/index.asp

for i in picture_url:
picture_code = i[40:-4]
with open("./picture/%s.jpg" % picture_code, "wb") as file:
file.write(requests.get(i).content)
第一行就是簡單的for循環，隨便看看書或者教程都可以。
第二行是字符串的截取，為了獲得圖片的非同一標識符。你可以選擇任何方式命名，看個人喜好了。
第三行with open() as f:結構，打開一個文件並且作為變量賦值給f。open("./picture/%s.jpg" % picture_code, "wb")是打開當前目錄的picture目錄，這個目錄要線創建。當然你也可以用這行代碼一起實現.os.makedirs(‘./picture‘)，但是你還得導入os模塊，會復雜一點，當然很好用，看個人喜好。如果是一次爬取東西很多很推薦，特別是需要創建很多不同的目錄去創建東西的時候，可擴展性比較好。
創建以圖片編碼為名字的文件設置為wb可寫如二進制代碼格式，因為圖片很多都是二進制格式。
第四行就是簡單的文件寫入了，寫入requests.get(i).content內容，如果想好看一點可以在前面加上一個picture = requests.get(i).content，後面就可以直接file.write(picture)。都是個人喜好，但是註意不要忘記加上get(i)後面這個content，如果不加的話,picture等於一個返回值
興許是200，這是對的，也可能其他錯誤返回值。
open用法想學可以參考下面這個鏈接http://www.runoob.com/python/python-func-open.html

萌新xpath的爬蟲，用著很舒服

擴展性 xpath tree 編輯器 () png 圖片編碼進制 trident 我用的是Pycharm編輯器，3.5的python。首先給大家看看源碼與成果#####@Time:2018/10/25

萌新xpath的爬蟲，用著很舒服

萌新xpath的爬蟲，用著很舒服

給大家安利下Bootstrap的Panel元件以及LobiPanel外掛，用著還是很舒服的！

Python泡妹爬蟲，用Python傳送天氣預報郵件！

docker（23）：在windows 上面安裝使用docker，用著也挺方便的

fastbit 基於bitmap的索引，看著很牛X的樣子，先記錄

從零開始的Python爬蟲速成指南，本文受眾：沒寫過爬蟲的萌新

Python（11）萌新也能看懂之——用Python讀取資料庫，然後寫入Excel裡

git 提交新項目，並修改用戶名以及提交郵箱

qt下的時鐘程序（簡單美麗，繼承自QWidget的Clock，用timer調用update刷新，然後使用paintEvent作畫就行了，超詳細中文註釋）good

使用php下載的文件打不開，自己用著沒問題，客戶用就不行？

運維知識大雜燴1（適合復習時候參考，初學會看著很雜）

印度“人棍”男孩，用頭部自理生活，堅挺過著生活

爬蟲：網頁裏元素的xpath結構，scrapy不一定就找的到

用js把圖片做的富有動態感，並對以後需要用著的屬性進行封裝

未能分析從服務器收到的消息,.cs文件裏面用response.write輸出js彈框出錯，用了局部跟新

用Node.js寫爬蟲，擼羞羞的圖片

網絡編程（爬蟲，接口及好用的模塊）及網絡測接口

5G的正式啟動，標誌著全新網速創造城市新智慧

采用短網址生成方法,生成一個唯一的短字符串。然後保存到數據庫中，與源數據一一對應,新的系統，從數據庫中取到相應的數據（轉）

從第一行程式碼到發鏈只需一小時，用這款新工具，你也能做到

萌新xpath的爬蟲，用著很舒服

相關推薦