1. 程式人生 > >Python技術之爬蟲

Python技術之爬蟲

鏈接 函數 自由 獲取 發展 頭像 函數式 大數 性別

Python技術之爬蟲

隨著大數據的興起,帶動了一門編程語言的發展,沒錯,它就是Python。

來自與wiki:

Python(英國發音:/?pa?θ?n/ 美國發音:/?pa?θɑ?n/),是一種面向對象、解釋型的計算機程序語言。它包含了一組功能完備的標準庫,能夠輕松完成很多常見的任務。它的語法簡單,與其它大多數程序設計語言使用大括號不一樣,它使用縮進來定義語句塊。 與Scheme、Ruby、Perl、Tcl等動態語言一樣,Python具備垃圾回收功能,能夠自動管理內存使用。它經常被當作腳本語言用於處理系統管理任務和網絡程序編寫,然而它也非常適合完成各種高級任務。Python虛擬機本身幾乎可以在所有的作業系統中運行。使用一些諸如py2exe、PyPy、PyInstaller之類的工具可以將Python源代碼轉換成可以脫離Python解釋器運行的程序。 Python的官方解釋器是CPython,該解釋器用C語言編寫,是一個由社區驅動的自由軟件,目前由Python軟件基金會管理。 Python支持命令式程序設計、面向對象程序設計、函數式編程、面向側面的程序設計、泛型編程多種編程範式。

總結一下,Python是一個簡單的、解釋型的、交互式的、可移植的、面向對象的超高級語言,它的語法非常的清晰,寫法簡潔優美,適用於多種操作系統。

Python的使用場景分為幾大類,它可以被用來開發web程序,網絡爬蟲GUI開發操作系統,等等。

今天就跟大家分享一下,基於python的網絡爬蟲。

  • 愛絲APP圖片爬蟲

    愛絲APP圖片爬蟲,以及免支付破解VIP看圖

  • Bilibili 用戶

    抓取Bilibili用戶信息

  • 北郵人水木清華招聘

    Crawler_Job是獲取北郵人以及水木清華論壇招聘信息的爬蟲

  • 豆瓣讀書

    Python所寫,豆瓣讀書的爬蟲,方便大家搜羅各種美美書!

  • Girl-atlas

    圖片爬蟲,爬 http://www.girl-atlas.com 整個網站的圖片

  • 機票

    Findtrip是一個基於Scrapy的機票爬蟲,目前整合了國內兩大機票網站(去哪兒 + 攜程)

  • 抓取今日頭條,網易,騰訊等新聞

    新聞抓取,索引構建,前端搜索

  • 課程格子校花榜

    爬課程格子的校花榜

  • 抓取鏈家網信息

    爬取北京地區鏈家歷年二手房成交記錄。

  • QQ群

    批量抓取 QQ 群信息,包括群名稱、群號、群人數、群主、群簡介等內容,最終生成 XLS(X) / CSV 結果文件。

  • 清華大學網絡學堂爬蟲

    項目目標是建立一個可以直接進行二次開發的清華網絡學堂API,功能基本覆蓋清華網絡學堂所有功能。

  • 人人影視

    抓取人人影視指定美劇HR-HDTV的ed2k下載鏈接

  • 天貓雙十二

    天貓雙12爬蟲,附266萬活動商品數據。

  • 電影網站

    爬取常見電影網站的電影鏈,目前支持的網站有:電影天堂(www.dyt8.net)迅播影院(www.2tu.cc)

  • 微信公眾號

    一個爬取微信公眾號文章的爬蟲

  • 新浪微博

    抓取新浪微博上的信息,一天可抓取1300萬條記錄

  • 知乎

    爬取知乎用戶信息以及人際拓撲關系

  • 知網

    抓取知網文獻

  • 知乎妹子頭像

    抓取知乎上性別為女的用戶的頭像,由於知乎用戶URL不具有規則性,所以采用BFS算法搜索所有的用戶

Python技術之爬蟲