Python爬蟲寫在前面

阿新 • • 發佈：2018-02-08

區別知識點實例基本就是則表達式無法技術點系列

不知道大家有沒有和我一樣的想法，最開始學習Python的興趣就是為了爬蟲，爬一些好看的妹子圖片...

恩，準備進入正題了！最近一段時間沒有怎麽更新公眾號，主要就是在做爬蟲教程的一些準備工作，看看爬蟲需要用到那些技術，然後做個計劃出來,確定一下學習課程中縫,這不今天就先列出一些玩爬蟲需要的準備工作!

Python爬蟲這門技術你可以做得很簡單，你也可以玩得很深入.打比方用簡單的爬蟲方式爬取1000萬條數據可能需要一周時間，但如果你的爬蟲玩得比較厲害，你可以采用分布式爬蟲技術1天就能完成了1000萬條數據。雖然都是爬蟲，但這就是菜鳥與大牛的區別！這就和太極拳似的，易學難精！

這裏面的技術點挺多的！現在來簡單聊聊爬蟲需要涉及的知識點。

網頁知識

html，js,css，xpath這些知識，雖然簡單，但一定需要了解。你得知道這些網頁是如何構成的，然後才能去分解他們.

HTTP知識

一般爬蟲你需要模擬瀏覽器的操作，才能去獲取網頁的信息
如果有些網站需要登錄，才能獲取更多的資料，你得去登錄，你得把登錄的賬號密碼進行提交
有些網站登錄後需要保存cookie信息才能繼續獲取更多資料

正則表達式

有了正則表達式才能更好的分割網頁信息，獲取我們想要的數據，所以正則表達式也是需要了解的.

一些重要的爬蟲庫

url,url2
beautiul Soup

數據庫

爬取到的數據我們得有個地方來保存，可以使用文件，也可以使用數據庫，這裏我會使用mysql

，還有更適合爬蟲的MongoDB數據庫，以及分布式要用到的redis 數據庫

爬蟲框架

PySpider和Scrapy 這兩個爬蟲框架是非常NB的,簡單的爬蟲可以使用urllib與urllib2以及正則表達式就能完成，但高級的爬蟲還得用這兩個框架。這兩個框架需要另行安裝。後面一起學習.

反爬蟲

有時候你的網站數據想禁止別人爬取，可以做一些反爬蟲處理操作。打比方百度上就無法去查找淘寶上的數據，這樣就避開了搜索引擎的競爭，淘寶就可以搞自己的一套競價排名

分布式爬蟲

使用多個redis實例來緩存各臺主機上爬取的數據。

爬蟲要學的東西還是挺多的，想把爬蟲玩得666，基本就是這些知識點吧！好了，上面的東西我也只是粗略整理，筆誤在所難免，後面我們會一起來學習爬蟲知識吧！而我也準備做這樣一套完整的爬蟲系列教程！

最後我們一起來一場愉快的爬蟲之旅吧！

Python爬蟲寫在前面

區別知識點實例基本就是則表達式無法技術點系列不知道大家有沒有和我一樣的想法，最開始學習Python的興趣就是為了爬蟲，爬一些好看的妹子圖片... 恩，準備進入正題了！最近一段時間沒有怎麽更新公眾號，主要就是在做爬蟲教程的一些準備工作，看看爬蟲需要用到那些

Python爬蟲寫在前面

網頁知識

HTTP知識

正則表達式

一些重要的爬蟲庫

數據庫

爬蟲框架

反爬蟲

分布式爬蟲

Python爬蟲寫在前面

Python爬蟲入門（一）寫在前面

Python爬蟲小白入門（一）寫在前面

第一次寫，python爬蟲圖片，操作excel。

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

5個python爬蟲教材，讓小白也有爬蟲可寫，含視頻教程！

爬蟲工程師熬夜寫了這篇文章，關於Python爬蟲的一些方法總結！

從零開始的Python爬蟲速成指南，本文受眾：沒寫過爬蟲的萌新

Python爬蟲，看看我最近部落格都寫了啥，帶你製作高逼格的資料聚合雲圖

還沒寫過爬蟲的小白點進來，一文帶你入門python爬蟲（小白福利）

從零開始系統化的學習寫Python爬蟲

一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單

零基礎寫python爬蟲之使用Scrapy框架編寫爬蟲

剛學了兩天python爬蟲，就寫了一個分享給大家！爬蟲真的很簡單！

從零基礎寫Python爬蟲是如何做到的？

從零開始寫Python爬蟲 --- 1.1 requests庫的安裝與使用

【Python爬蟲】Requests 請求並讀寫、儲存到excel檔案中

Python新手寫出漂亮的爬蟲程式碼

換了個地方，來北京工作，面試了4家python爬蟲，寫一些這四家（記得的）筆試題（1）

Python爬蟲？今天教大家玩更厲害的，反爬蟲操作！零基礎都能寫！

Python爬蟲寫在前面

網頁知識

HTTP知識

正則表達式

一些重要的爬蟲庫

數據庫

爬蟲框架

反爬蟲

分布式爬蟲

相關推薦