1. 程式人生 > 程式設計 >python爬蟲容易學嗎

python爬蟲容易學嗎

隨著大資料時代的到來,資料將如同煤電氣油一樣,成為我們最重要的能源之一,然而這種能源是可以源源不斷產生、可再生的。而Python爬蟲作為獲取資料的關鍵一環,在大資料時代有著極為重要的作用。於是許多同學就前來諮詢:Python爬蟲好學嗎?

什麼是爬蟲?

網路爬蟲,又被稱為網頁蜘蛛,網路機器人,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。

資料從何而來?

要想學Python首先請問:我們所爬的資料,是從哪裡來的呢?

企業產生的使用者資料:百度指數、阿里指數、TBI騰訊瀏覽指數、新浪微博指數;

資料平臺購買資料:資料堂、國雲資料市場、貴陽大資料交易所;

政府/機構公開的資料:中華人民共和國國家統計局資料、世界銀行公開資料、聯合國資料、納斯達克;

資料管理諮詢公司:麥肯錫、埃森哲、艾瑞諮詢;

爬取網路資料:如果需要的資料市場上沒有,或者不願意購買,那麼可以選擇招/做一名爬蟲工程師,自己動手豐衣足食。

怎麼抓取頁面資料?

網頁三大特徵:

網頁都有自己唯一的URL(統一資源定位符)來進行定位;

網頁都使用HTML (超文字標記語言)來描述頁面資訊;

網頁都使用HTTP/HTTPS(超文字傳輸協議)協議來傳輸HTML資料;

爬蟲的設計思路:

首先確定需要爬取的網頁URL地址。

通過HTTP/HTTP協議來獲取對應的HTML頁面。

提取HTML頁面裡有用的資料:

a. 如果是需要的資料,就儲存起來。

b. 如果是頁面裡的其他URL,那就繼續執行第二步。

結語:Python爬蟲的學習實際上在Python學習過程中是一個基礎入門級的部分,學起來沒啥難的,但它確實是職業能力中不可或缺的技能之一。、

內容擴充套件:

一個簡單的爬蟲例項:

 
import urllib,urllib2
import re
def geturllist():
  # 不訪問網站,而是例項一個物件,為了模擬瀏覽器訪問伺服器
  req = urllib2.Request("http://www.budejie.com/video/")
  
  # 新增申請訪問的header,讓對方伺服器誤以為是瀏覽器申請訪問(引數是通過瀏覽器複製過來的)
  req.add_header('User-Agent',' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/71.0.3578.98 Safari/537.36')
 
  # 開啟我剛才建立的例項物件
  res =urllib2.urlopen(req)
  html = res.read()
  print html # 訪問到了資原始碼
 
  # 定義一個正則化表示式為了獲取我要的視訊網址
  reg = r'data-mp4="(.*?)">'
  # 將網頁原始碼中的視訊網址找出來
  urllist = re.findall(reg,html)
  # print urllist
 
  # 有20個視訊網址,用for迴圈一個一個下載出來
  n = 1
  for url in urllist:
    # url 視訊網址,'%s.mp4'下載後的名字,url.split('/')[-1] 將字串按照‘/'分開
    urllib.urlretrieve(url,'%s.mp4' %url.split('/')[-1]) # 下載視訊
    n = n+1
 
geturllist()

到此這篇關於python爬蟲容易學嗎的文章就介紹到這了,更多相關python爬蟲好學嗎內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!