Python第一課——訪問網址
阿新 • • 發佈:2019-02-16
python爬蟲
爬蟲已經存在很長時間了,是學習程式設計入門非常好的練手專案,因為用python做爬蟲簡單靠譜。而且是最近火的不能再火的python在AI的應用異軍突起,所以選擇用python學習爬蟲絕對意義非凡。
爬蟲,顧名思義就是一隻在網際網路上爬來爬去的蟲,並且爬過的地方都會將此處的資訊記錄下來。在資訊爆炸的時代,能有效獲取資料或是其他資訊,是未來世界有利的生存武器。資料分析在金融和AI方面的應用已經不可言喻了。
而做好資料分析首先要有能做到有效的資料獲取,資料儲存,資料提取,資料分析,資料探勘,資料視覺化等等很多大的點。
基本框架:
知識儲備:
主要需要了解一些知識點如下:
1:HTTP 協議
2:前端技術(JavaScript和HTML)
3:正則表示式和Xpath(文字匹配利器和網頁儲存路徑語言XML)
介紹下一個簡單的爬蟲框架如下:
py2.7和3.6通用。
import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
#url = "http://item.jd.com/2967929.html"
try:
kv ={‘User-Agent’:‘Mozilla/5.0 ’}
r = requests.get(url,headers = kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[100:200])
except:
print("失敗")