Python爬蟲寫在前面
不知道大家有沒有和我一樣的想法,最開始學習Python的興趣就是為了爬蟲,爬一些好看的妹子圖片...
恩,準備進入正題了!最近一段時間沒有怎麽更新公眾號,主要就是在做爬蟲教程的一些準備工作,看看爬蟲需要用到那些技術,然後做個計劃出來,確定一下學習課程中縫,這不今天就先列出一些玩爬蟲需要的準備工作!
Python爬蟲這門技術你可以做得很簡單,你也可以玩得很深入.打比方用簡單的爬蟲方式爬取1000萬條數據可能需要一周時間,但如果你的爬蟲玩得比較厲害,你可以采用分布式爬蟲技術1天就能完成了1000萬條數據。雖然都是爬蟲,但這就是菜鳥與大牛的區別!這就和太極拳似的,易學難精!
這裏面的技術點挺多的!現在來簡單聊聊爬蟲需要涉及的知識點。
網頁知識
html,js,css,xpath
這些知識,雖然簡單,但一定需要了解。 你得知道這些網頁是如何構成的,然後才能去分解他們.
HTTP知識
- 一般爬蟲你需要模擬瀏覽器的操作,才能去獲取網頁的信息
- 如果有些網站需要登錄,才能獲取更多的資料,你得去登錄,你得把登錄的賬號密碼進行提交
- 有些網站登錄後需要保存cookie信息才能繼續獲取更多資料
正則表達式
有了正則表達式才能更好的分割網頁信息,獲取我們想要的數據,所以正則表達式也是需要了解的.
一些重要的爬蟲庫
- url,url2
- beautiul Soup
數據庫
爬取到的數據我們得有個地方來保存,可以使用文件,也可以使用數據庫,這裏我會使用mysql
MongoDB
數據庫,以及分布式要用到的redis 數據庫
爬蟲框架
PySpider
和Scrapy
這兩個爬蟲框架是非常NB的,簡單的爬蟲可以使用urllib
與urllib2
以及正則表達式就能完成,但高級的爬蟲還得用這兩個框架。 這兩個框架需要另行安裝。後面一起學習.
反爬蟲
有時候你的網站數據想禁止別人爬取,可以做一些反爬蟲處理操作。 打比方百度上就無法去查找淘寶上的數據,這樣就避開了搜索引擎的競爭,淘寶就可以搞自己的一套競價排名
分布式爬蟲
使用多個redis
實例來緩存各臺主機上爬取的數據。
爬蟲要學的東西還是挺多的,想把爬蟲玩得666,基本就是這些知識點吧!好了,上面的東西我也只是粗略整理,筆誤在所難免,後面我們會一起來學習爬蟲知識吧!而我也準備做這樣一套完整的爬蟲系列教程!
最後我們一起來一場愉快的爬蟲之旅吧!
Python爬蟲寫在前面