基於 webmagic 的知乎爬取[GitHub]
阿新 • • 發佈:2018-12-13
ZhiHuCrawler(基於 webmagic
的知乎爬取)
簡介
GitHub 地址
出於興趣想要分析一下知乎
,所以爬取了一些知乎的資料。爬取的資料主要有三種:
- 某種話題(如網際網路、軟體工程)下的問題
- 知乎大V
(如張佳瑋、李開復等)
- 大V
回答
模組
主要分兩個模組:
話題問題爬取
(ZhiHuTopics
package)
該模組主要爬取某話題下的
Question
,比如爬取軟體工程
下的問題。爬取的結果如下:
url: https://www.zhihu.com/question/66519221 標題: 騰訊開發微信花了多少錢?真的技術難度這麼大嗎?難點在哪裡? 關注者: 2955 瀏覽人數: 1288594
【注】:這裡由於我不需要
問題回答
,故沒有爬取使用者回答
。其實,在此基礎上修改一下很容易得到使用者回答
內容。該模組下爬取內容的輸出為
txt
檔案。該模組的使用案例,請參考
Crawler
類中main()
方法。
大v爬取
(VAnalysis
package)【未添加註釋。。。】
該模組爬取的資料可分為兩類:
知乎大
v
【案例】:VUserCrawler
類中main()
大
V
回答 【案例】:VAnswerCrawler
類中main()
該模組爬取的結果輸出到
MySQL
資料庫。其中,使用了Hibernate
方便、優化了輸出。
相關
如果需要修改,請先了解
WebMagic
。WebMagic 是一個開源的Java垂直爬蟲框架。為防止知乎鎖
IP
,爬取速度不是很快。我在爬top100大v的回答
(8w+資料) 時大約使用了 2天 17小時。
關於
IntelliJ IDEA 2017.1 Build #IU-171.3780.107, built on March 22, 2017 Licensed to kissx JRE: 1.8.0_112-release-736-b13 amd64 JVM: OpenJDK 64-Bit Server VM by JetBrains s.r.o Windows 10 10.0