1. 程式人生 > >基於 webmagic 的知乎爬取[GitHub]

基於 webmagic 的知乎爬取[GitHub]

ZhiHuCrawler(基於 webmagic 的知乎爬取)

簡介

GitHub 地址
出於興趣想要分析一下知乎,所以爬取了一些知乎的資料。爬取的資料主要有三種:
- 某種話題(如網際網路、軟體工程)下的問題
- 知乎大V(如張佳瑋、李開復等)
- V回答

模組

主要分兩個模組:

  1. 話題問題爬取ZhiHuTopics package)

該模組主要爬取某話題下的 Question ,比如爬取 軟體工程 下的問題。爬取的結果如下:

url:    https://www.zhihu.com/question/66519221
標題: 騰訊開發微信花了多少錢?真的技術難度這麼大嗎?難點在哪裡?
關注者:    2955
瀏覽人數:   1288594

】:這裡由於我不需要 問題回答 ,故沒有爬取 使用者回答 。其實,在此基礎上修改一下很容易得到 使用者回答 內容。

該模組下爬取內容的輸出為 txt 檔案。

該模組的使用案例,請參考 Crawler 類中 main() 方法。

  1. 大v爬取 (VAnalysis package)【未添加註釋。。。】

該模組爬取的資料可分為兩類:

知乎大v 【案例】: VUserCrawler 類中 main()

users

V回答 【案例】: VAnswerCrawler 類中 main()

answers

該模組爬取的結果輸出到 MySQL 資料庫。其中,使用了 Hibernate 方便、優化了輸出。

相關

  • 如果需要修改,請先了解 WebMagicWebMagic 是一個開源的Java垂直爬蟲框架。

  • 為防止知乎鎖 IP ,爬取速度不是很快。我在爬 top100大v的回答(8w+資料) 時大約使用了 2天 17小時

關於

IntelliJ IDEA 2017.1
Build #IU-171.3780.107, built on March 22, 2017
Licensed to kissx

JRE: 1.8.0_112-release-736-b13 amd64
JVM: OpenJDK 64-Bit Server VM by JetBrains s.r.o
Windows 10 10.0