python 爬蟲爬取所有上市公司公告資訊（五）

阿新 • • 發佈：2019-01-11

。，。現在我們進過for迴圈，已經獲取到了每一個股票程式碼在2015年至今所有的公告內容連線和公告日期，且是以（日期，公告內容url）元組的形式加入到了爬取佇列中，

在最內層迴圈結束後，我們編寫程式實現多執行緒和儲存公告內容的功能。

公告最終在對應的json檔案裡是以鍵值對的形式存在的，日期則是以後呼叫對應公告內容的鍵。

    model = {}
    while True:
        url = crawler.dequeue()
        if url is None:
           for t in threads:
               t.join()
               break
        else:
             while True:
               for t in threads:
                   if not t.is_alive():
                      threads.remove(t)
               if len(threads) >= maxthreads
                   time.sleep(CRAWL_DELAY)
                   continue
        try:
             t =threading.Thread(target = get_page_content,name=None,args =url,stock,model)
             threads.append(t)
             t.setDaemon(True)
             t.start()
             time.sleep(CRAWL_DELAY)
             break
        except:
             print("進入不了執行緒")

內層迴圈結束後，我們執行上面的程式。

首先定義了model字典來儲存資訊，然後開始while迴圈，從爬取佇列中取出url，首先檢視是否已經將佇列中的連線爬取完成，如果爬取完了則等待執行緒池中的執行緒執行完畢進入下一迴圈，如果佇列中還有url，則進入else語句塊，先移除佇列裡面已經完成的執行緒，然後判斷執行緒是否超過了我們設定的最大限制，如果執行緒池中執行緒已經到了我們設定的閥值，則等待時間，進入下一迴圈。如果沒有到達執行緒數量的閥值，則加入到執行緒池中，將url資訊，stock資訊，model，傳入到我們編寫的get_page_content函式中進行處理。

我們先明確get_page_content函式所要實現的功能。

1.抓取網頁的公告內容

2.將抓取到的公告內容與公告日期對應，儲存到model字典中

3.將get_page_content爬取過的網頁url雜湊化之後加入到download.txt檔案中

4.針對一天多個公告的情況，將公告中的內容加起來，對應一個日期。

5.根據前面設計的資料結構建立檔案

開始編寫程式碼

def get_page_content(url,stock,model):
        stock_page = etree.HTML(get_text(url[1]))
        notice = stock_page.xpath('//div[@class="detail-body"]/div[1]')[0].text

        path = '/home/gupiao/%s/%s'%(stock,url[0][:4])
        isExist = os.path.exists(path)
        
        if not isExist:
           os.makedirs(path)
           print(path+“建立成功”)
        
        if url[0] in model.keys():
           new_value = model[url[0]] + notice
           model[url[0]] = new_value
        else:
           model[url[0]] = notice
        
        mdurl = url[1].encode('utf8')
        new_md5 = hashlib.md5(mdurl).hexdigest()
        crawler.dumd5_file.write(new_md5+"\n")

這裡有兩個需要注意的地方，首先是對同一天多個公告的處理，筆者採用的方法是先判斷日期是否已經存在於model的鍵中，如果已經存在，證明已經爬取過當天的另外一條公告，我們定義new_notice 等於之前的公告加現在爬取的notice，將new_notice賦值給該日期。這樣呼叫該日期的公告內容時就能拿到當天釋出過的所有公告內容。

二是在爬取完成之後儲存時，注意要將url先編碼為utf8，否則無法雜湊化寫入到檔案中。

這段程式碼建立好了資料的資料夾結構，model中也儲存了該股票所有的日期和公告內容資訊。

我們接下來實現檔案按月份分類儲存為json檔案的功能收尾。

for talk_time in model.keys():
    with open('/home/gupiao/%s/%s/%s.json'%(stock,talk_time[:4],talk_time[:7]),'a',encoding='utf8') as json_file:
              infodict = {}
              infodice[talk_time] = model[talk_time]
              json.dump(infodict,json_file,ensure = Flase)
   print(stock+"完成")

這裡為了將不同月份的公告分開，筆者先定義了一個infodict字典，然後將每個公告日期遍歷，將相同日期的model值賦給infodict，將infodict寫入對應的json檔案。

爬蟲大致就完成了，筆者現在還在執行程式中，預計爬取完成後檔案有十幾個G的大小。

python 爬蟲爬取所有上市公司公告資訊（五）

python 爬蟲爬取所有上市公司公告資訊（五）

python 爬蟲爬取所有上市公司公告資訊（一）

python 爬蟲爬取所有上市公司公告資訊（二）

利用Python爬蟲爬取京東商品的簡要資訊

Python爬蟲爬取智聯招聘職位資訊

python爬蟲爬取鏈家二手房資訊

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

爬蟲--爬取csdn訊息並郵箱通知（python3）

Python爬蟲之Beautiful Soup解析庫的使用（五）

Python 爬蟲從入門到進階之路（五）

Python爬蟲爬取CSDND首頁的所有的文章

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

python爬蟲爬取NBA貼吧的所有精品貼

python爬蟲爬取csdn部落格專家所有部落格內容

【附上解釋】爬取A股所有上市公司的資訊並存儲到資料庫或者是csv檔案中

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎使用者資訊(上)

Python爬蟲-爬取糗事百科段子

python爬蟲爬取頁面源碼在本頁面展示

python 爬蟲爬取所有上市公司公告資訊（五）

相關推薦