python爬蟲(一)
阿新 • • 發佈:2018-02-10
ext .text 結果 ins mage .get font baidu 類型
python網絡爬蟲(一) 2018-02-10
python版本:python 3.7.0b1
IDE:PyCharm 2016.3.2
涉及模塊:requests & builtwith
模塊安裝方法:Win+R 進入cmd, 進入文件夾Scripts
命令:pip install requests / pip install requests(如不能正確安裝,請留言或自行百度解決)
話不多說,先上代碼:
1 #coding : utf-8 2 import requests 3 import builtwith #引入所需python庫 4 print("開始爬取") 5 url = "https://www.wenjiwu.com/doc/uqzlni.html" #爬取對象網址 6 r = requests.get(url) #requests模塊get方法 7 print (r.status_code) #xxx.status_code方法,返回值若為200,則爬取成功 8 print (r.text) #xxx.text方法,得到URL對應HTML源碼 9 print (builtwith.parse(url)) #builtwith模塊將URL作為參數,返回該網站使用的技術
(url網址隨意,baidu, imooc...都可以)
腳本運行結果:
可以看到,程序正常運行,返回值200,爬取成功,builtwith模塊得到了示例網站 web-servers: Nginx(服務器類型,詳細了解),
使用了jQuery的javascript框架。但是礙於篇幅,其中HTML源碼內容運行時註釋掉了,不要驚訝!!!
r.text 結果(部分):
(內容無意中傷 Single Dog, Me too #_# )
轉載請註明出處,歡迎留言討論。
python爬蟲(一)