1. 程式人生 > >Python爬蟲《Python網絡爬蟲相關基礎概念》

Python爬蟲《Python網絡爬蟲相關基礎概念》

模塊 分類 技術 實現 目的 爬蟲 選擇 策略 純粹

引入

之前在授課過程中,好多同學都問過我這樣的一個問題:為什麽要學習爬蟲,學習爬蟲能夠為我們以後的發展帶來那些好處?其實學習爬蟲的原因和為我們以後發展帶來的好處都是顯而易見的,無論是從實際的應用還是從就業上。

我們都知道,當前我們所處的時代是大數據的時代,在大數據時代,要進行數據分析,首先要有數據源,而學習爬蟲,可以讓我們獲取更多的數據源,並且這些數據源可以按我們的目的進行采集。

優酷推出的火星情報局就是基於網絡爬蟲和數據分析制作完成的。其中每期的節目話題都是從相關熱門的互動平臺中進行相關數據的爬取,然後對爬取到的數據進行數據分析而得來的。另一方面,優酷根據用戶實時觀看視頻時的前進,後退等行為數據,能夠推測計算出觀眾的興趣點和愛好點,這樣有助於節目的剪輯和後期的節目方案的編寫。

今日頭條作為一個新聞推薦類的應用,其內部的新聞數據都是通過爬蟲程序在各個新聞網站進行新聞數據的爬取,然後通過相應的處理和運算將用戶感興趣的新聞話題推送到用戶的手機上。

從就業的角度來說,爬蟲工程師目前來說屬於緊缺人才,並且薪資待遇普遍較高所以,深層次地掌握這門技術,對於就業來說,是非常有利的。有些人學習爬蟲可能為了就業或者跳槽。從這個角度來說,爬蟲工程師是不錯的選擇之一。隨著大數據時代的來臨,爬蟲技術的應用將越來越廣泛,在未來會擁有更好的發展空間。

今日概要

  • 爬蟲簡介
  • 爬蟲分類
  • robots協議
  • 反爬機制
  • 反反爬機制

今日詳情

  • 什麽是爬蟲

    爬蟲就是通過編寫程序模擬瀏覽器上網,然後讓其去互聯網上抓取數據的過程。
  • 哪些語言可以實現爬蟲

    1.php:可以實現爬蟲。php被號稱是全世界最優美的語言(當然是其自己號稱的,就是王婆賣瓜的意思),但是php在實現爬蟲中支持多線程和多進程方面做的不好。

    2.java:可以實現爬蟲。java可以非常好的處理和實現爬蟲,是唯一可以與python並駕齊驅且是python的頭號勁敵。但是java實現爬蟲代碼較為臃腫,重構成本較大。

    3.c、c++:可以實現爬蟲。但是使用這種方式實現爬蟲純粹是是某些人(大佬們)能力的體現,卻不是明智和合理的選擇。

    4.python:可以實現爬蟲。python實現和處理爬蟲語法簡單,代碼優美,支持的模塊繁多,學習成本低,具有非常強大的框架(scrapy等)且一句難以言表的好!沒有但是!

  • 爬蟲的分類

    1.通用爬蟲:通用爬蟲是搜索引擎(Baidu、Google、Yahoo等)“抓取系統”的重要組成部分。主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。 簡單來講就是盡可能的;把互聯網上的所有的網頁下載下來,放到本地服務器裏形成備分,在對這些網頁做相關處理(提取關鍵字、去掉廣告),最後提供一個用戶檢索接口。
    • 搜索引擎如何抓取互聯網上的網站數據?
      • 門戶網站主動向搜索引擎公司提供其網站的url
      • 搜索引擎公司與DNS服務商合作,獲取網站的url
      • 門戶網站主動掛靠在一些知名網站的友情鏈接中

2.聚焦爬蟲:聚焦爬蟲是根據指定的需求抓取網絡上指定的數據。例如:獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的數據值。

  • robots.txt協議

    - 如果自己的門戶網站中的指定頁面中的數據不想讓爬蟲程序爬取到的話,那麽則可以通過編寫一個robots.txt的協議文件來約束爬蟲程序的數據爬取。robots協議的編寫格式可以觀察淘寶網的robots(訪問www.taobao.com/robots.txt即可)。但是需要註意的是,該協議只是相當於口頭的協議,並沒有使用相關技術進行強制管制,所以該協議是防君子不防小人。但是我們在學習爬蟲階段編寫的爬蟲程序可以先忽略robots協議。
  • 反爬蟲

    - 門戶網站通過相應的策略和技術手段,防止爬蟲程序進行網站數據的爬取。
  • 反反爬蟲

    - 爬蟲程序通過相應的策略和技術手段,破解門戶網站的反爬蟲手段,從而爬取到相應的數據。

Python爬蟲《Python網絡爬蟲相關基礎概念》