1. 程式人生 > >百度 資訊 爬蟲解決方案

百度 資訊 爬蟲解決方案

前言:本文介紹的是基於關鍵詞搜尋實現百度資訊的爬蟲解決辦法

第一步:關鍵詞搜尋

  1. 我們要找到適合自己的關鍵詞,注意關鍵詞決定著我們能否搜尋到優質的資料,所以找到足夠多的關鍵詞,優質的關鍵詞,能讓我們採集更多的資料。

  2.搜尋按照時間大小排序,在第一頁解析出來  新聞標題,新聞來源,新聞釋出時間,新聞簡單描述,新聞url連結。

                            

 

   3.新聞相信資訊解析:

       例如下面的這邊新聞,如何解析出來紅色的部分資訊呢?

    

 

     策略一: 使用 newspaper,優點是能解析出來大部分的網頁,缺點是速度慢,這個Python第三方庫不是萬能的,比如一些負責的網頁是解析不出來資訊的。

         使用程式碼

            

            from newspaper import Article
            url = 'http://www.npc.gov.cn/npc/zhibo/zzzb30/2018-10/26/content_2064215.htm'
            a = Article(url, language='zh') # Chinese
            a.download()
            a.parse()
            print "11111",a.text
            print "22222",a.title

        結果截圖:
            

 
 
      策略二: 自己寫解析規則;
        新聞網頁都有什麼解析規則呢? 比如都有 開始都有來源,時間等,結束有 責任編輯等詞語,自己研究出來一個解析規則