1. 程式人生 > >python爬蟲(一)

python爬蟲(一)

ext .text 結果 ins mage .get font baidu 類型

python網絡爬蟲(一) 2018-02-10


python版本:python 3.7.0b1

IDE:PyCharm 2016.3.2

涉及模塊:requests & builtwith

模塊安裝方法:Win+R 進入cmd, 進入文件夾Scripts

命令:pip install requests / pip install requests(如不能正確安裝,請留言或自行百度解決)


話不多說,先上代碼:

1 #coding : utf-8
2 import requests
3 import builtwith    #引入所需python庫
4 print
("開始爬取") 5 url = "https://www.wenjiwu.com/doc/uqzlni.html" #爬取對象網址 6 r = requests.get(url) #requests模塊get方法 7 print (r.status_code) #xxx.status_code方法,返回值若為200,則爬取成功 8 print (r.text) #xxx.text方法,得到URL對應HTML源碼 9 print (builtwith.parse(url)) #builtwith模塊將URL作為參數,返回該網站使用的技術

(url網址隨意,baidu, imooc...都可以)

腳本運行結果:

技術分享圖片

可以看到,程序正常運行,返回值200,爬取成功,builtwith模塊得到了示例網站 web-servers: Nginx(服務器類型,詳細了解),

使用了jQuery的javascript框架。但是礙於篇幅,其中HTML源碼內容運行時註釋掉了,不要驚訝!!!

r.text 結果(部分):

技術分享圖片

(內容無意中傷 Single Dog, Me too #_# )


轉載請註明出處,歡迎留言討論。

python爬蟲(一)