百度 資訊 爬蟲解決方案
阿新 • • 發佈:2018-12-26
前言:本文介紹的是基於關鍵詞搜尋實現百度資訊的爬蟲解決辦法
第一步:關鍵詞搜尋
1. 我們要找到適合自己的關鍵詞,注意關鍵詞決定著我們能否搜尋到優質的資料,所以找到足夠多的關鍵詞,優質的關鍵詞,能讓我們採集更多的資料。
2.搜尋按照時間大小排序,在第一頁解析出來 新聞標題,新聞來源,新聞釋出時間,新聞簡單描述,新聞url連結。
3.新聞相信資訊解析:
例如下面的這邊新聞,如何解析出來紅色的部分資訊呢?
策略一: 使用 newspaper,優點是能解析出來大部分的網頁,缺點是速度慢,這個Python第三方庫不是萬能的,比如一些負責的網頁是解析不出來資訊的。
使用程式碼
from newspaper import Article
url = 'http://www.npc.gov.cn/npc/zhibo/zzzb30/2018-10/26/content_2064215.htm'
a = Article(url, language='zh') # Chinese
a.download()
a.parse()
print "11111",a.text
print "22222",a.title
結果截圖:
策略二: 自己寫解析規則;
新聞網頁都有什麼解析規則呢? 比如都有 開始都有來源,時間等,結束有 責任編輯等詞語,自己研究出來一個解析規則