1. 程式人生 > >Python第一課——訪問網址

Python第一課——訪問網址

python爬蟲

爬蟲已經存在很長時間了,是學習程式設計入門非常好的練手專案,因為用python做爬蟲簡單靠譜。而且是最近火的不能再火的python在AI的應用異軍突起,所以選擇用python學習爬蟲絕對意義非凡。
爬蟲,顧名思義就是一隻在網際網路上爬來爬去的蟲,並且爬過的地方都會將此處的資訊記錄下來。在資訊爆炸的時代,能有效獲取資料或是其他資訊,是未來世界有利的生存武器。資料分析在金融和AI方面的應用已經不可言喻了。

而做好資料分析首先要有能做到有效的資料獲取,資料儲存,資料提取,資料分析,資料探勘,資料視覺化等等很多大的點。
基本框架:

Created with Raphaël 2.1.2
開始 爬取初始URL儲存URL列表讀取新的URL判斷是否滿足條件?結束 yesno

知識儲備:

主要需要了解一些知識點如下:
1:HTTP 協議
2:前端技術(JavaScript和HTML)
3:正則表示式和Xpath(文字匹配利器和網頁儲存路徑語言XML)

介紹下一個簡單的爬蟲框架如下:
py2.7和3.6通用。

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
#url = "http://item.jd.com/2967929.html"

try:

    kv ={‘User-Agent’:‘Mozilla/5.0
’} r = requests.get(url,headers = kv) r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[100:200]) except: print("失敗")