Python技術之爬蟲
隨著大數據的興起,帶動了一門編程語言的發展,沒錯,它就是Python。
來自與wiki:
Python(英國發音:/?pa?θ?n/ 美國發音:/?pa?θɑ?n/),是一種面向對象、解釋型的計算機程序語言。它包含了一組功能完備的標準庫,能夠輕松完成很多常見的任務。它的語法簡單,與其它大多數程序設計語言使用大括號不一樣,它使用縮進來定義語句塊。 與Scheme、Ruby、Perl、Tcl等動態語言一樣,Python具備垃圾回收功能,能夠自動管理內存使用。它經常被當作腳本語言用於處理系統管理任務和網絡程序編寫,然而它也非常適合完成各種高級任務。Python虛擬機本身幾乎可以在所有的作業系統中運行。使用一些諸如py2exe、PyPy、PyInstaller之類的工具可以將Python源代碼轉換成可以脫離Python解釋器運行的程序。 Python的官方解釋器是CPython,該解釋器用C語言編寫,是一個由社區驅動的自由軟件,目前由Python軟件基金會管理。 Python支持命令式程序設計、面向對象程序設計、函數式編程、面向側面的程序設計、泛型編程多種編程範式。
總結一下,Python是一個簡單的、解釋型的、交互式的、可移植的、面向對象的超高級語言,它的語法非常的清晰,寫法簡潔優美,適用於多種操作系統。
Python的使用場景分為幾大類,它可以被用來開發web程序
,網絡爬蟲
,GUI開發
,操作系統
,等等。
今天就跟大家分享一下,基於python的網絡爬蟲。
-
愛絲APP圖片爬蟲
愛絲APP圖片爬蟲,以及免支付破解VIP看圖
-
Bilibili 用戶
抓取Bilibili用戶信息
-
北郵人水木清華招聘
Crawler_Job是獲取北郵人以及水木清華論壇招聘信息的爬蟲
-
豆瓣讀書
Python所寫,豆瓣讀書的爬蟲,方便大家搜羅各種美美書!
-
Girl-atlas
圖片爬蟲,爬 http://www.girl-atlas.com 整個網站的圖片
-
機票
Findtrip是一個基於Scrapy的機票爬蟲,目前整合了國內兩大機票網站(去哪兒 + 攜程)
-
抓取今日頭條,網易,騰訊等新聞
新聞抓取,索引構建,前端搜索
-
課程格子校花榜
爬課程格子的校花榜
-
抓取鏈家網信息
爬取北京地區鏈家歷年二手房成交記錄。
-
QQ群
批量抓取 QQ 群信息,包括群名稱、群號、群人數、群主、群簡介等內容,最終生成 XLS(X) / CSV 結果文件。
-
清華大學網絡學堂爬蟲
項目目標是建立一個可以直接進行二次開發的清華網絡學堂API,功能基本覆蓋清華網絡學堂所有功能。
-
人人影視
抓取人人影視指定美劇HR-HDTV的ed2k下載鏈接
-
天貓雙十二
天貓雙12爬蟲,附266萬活動商品數據。
-
電影網站
爬取常見電影網站的電影鏈,目前支持的網站有:電影天堂(www.dyt8.net)迅播影院(www.2tu.cc)
-
微信公眾號
一個爬取微信公眾號文章的爬蟲
-
新浪微博
抓取新浪微博上的信息,一天可抓取1300萬條記錄
-
知乎
爬取知乎用戶信息以及人際拓撲關系
-
知網
抓取知網文獻
-
知乎妹子頭像
抓取知乎上性別為女的用戶的頭像,由於知乎用戶URL不具有規則性,所以采用BFS算法搜索所有的用戶
Python技術之爬蟲