1. 程式人生 > >Python爬蟲寫在前面

Python爬蟲寫在前面

區別 知識點 實例 基本 就是 則表達式 無法 技術點 系列

不知道大家有沒有和我一樣的想法,最開始學習Python的興趣就是為了爬蟲,爬一些好看的妹子圖片...

恩,準備進入正題了!最近一段時間沒有怎麽更新公眾號,主要就是在做爬蟲教程的一些準備工作,看看爬蟲需要用到那些技術,然後做個計劃出來,確定一下學習課程中縫,這不今天就先列出一些玩爬蟲需要的準備工作!

Python爬蟲這門技術你可以做得很簡單,你也可以玩得很深入.打比方用簡單的爬蟲方式爬取1000萬條數據可能需要一周時間,但如果你的爬蟲玩得比較厲害,你可以采用分布式爬蟲技術1天就能完成了1000萬條數據。雖然都是爬蟲,但這就是菜鳥與大牛的區別!這就和太極拳似的,易學難精!

這裏面的技術點挺多的!現在來簡單聊聊爬蟲需要涉及的知識點。

網頁知識

html,js,css,xpath這些知識,雖然簡單,但一定需要了解。 你得知道這些網頁是如何構成的,然後才能去分解他們.

HTTP知識

  • 一般爬蟲你需要模擬瀏覽器的操作,才能去獲取網頁的信息
  • 如果有些網站需要登錄,才能獲取更多的資料,你得去登錄,你得把登錄的賬號密碼進行提交
  • 有些網站登錄後需要保存cookie信息才能繼續獲取更多資料

正則表達式

有了正則表達式才能更好的分割網頁信息,獲取我們想要的數據,所以正則表達式也是需要了解的.

一些重要的爬蟲庫

  • url,url2
  • beautiul Soup

數據庫

爬取到的數據我們得有個地方來保存,可以使用文件,也可以使用數據庫,這裏我會使用mysql

,還有更適合爬蟲的MongoDB數據庫,以及分布式要用到的redis 數據庫

爬蟲框架

PySpiderScrapy 這兩個爬蟲框架是非常NB的,簡單的爬蟲可以使用urlliburllib2以及正則表達式就能完成,但高級的爬蟲還得用這兩個框架。 這兩個框架需要另行安裝。後面一起學習.

反爬蟲

有時候你的網站數據想禁止別人爬取,可以做一些反爬蟲處理操作。 打比方百度上就無法去查找淘寶上的數據,這樣就避開了搜索引擎的競爭,淘寶就可以搞自己的一套競價排名

分布式爬蟲

使用多個redis實例來緩存各臺主機上爬取的數據。

爬蟲要學的東西還是挺多的,想把爬蟲玩得666,基本就是這些知識點吧!好了,上面的東西我也只是粗略整理,筆誤在所難免,後面我們會一起來學習爬蟲知識吧!而我也準備做這樣一套完整的爬蟲系列教程!

最後我們一起來一場愉快的爬蟲之旅吧!

Python爬蟲寫在前面