python 爬蟲爬取所有上市公司公告資訊(一)
阿新 • • 發佈:2019-01-07
。,。前面我們已經瞭解了python中多執行緒,selenium,requests等爬蟲基本操作的知識,現在我們準備編寫一個規模較大的爬蟲,目的是爬取所有上市公司2015年至今的公告資訊。
相較於前面幾個簡單的爬蟲功能程式碼,公告資訊爬蟲需要考慮更多的問題,現在可以預見到的問題有
1. 爬取公告資訊網址的選擇
在開始爬取之前我們必須選擇一個合適的資料來源,如果能找到一個好的資料來源會極大的提高爬取的速度。
2.爬取資訊的儲存
在滬深兩市發行股票的公司共有3000多家,我們需要抓取每一家公司從2015年至今的公告資訊,這樣的大量的資訊不可能簡單的儲存到一個檔案中,必須選擇一個合適的資料格式,讓檢視和提取資訊更加方便。
3.網址的排重
由於資料很多,爬蟲可能需要執行很長時間才能完成爬取,這期間很可能會出現各種意外導致爬蟲中斷,此時如果重新爬取資料太浪費時間,我們需要制定url的排重方案在爬取網址前判斷是否爬取過該網址。
4.爬取資訊的速度
因為資料量很大,如果我們採用前面單執行緒的模式進行爬取可能抓一個月也爬不完,為了加快爬取的速度我們需要在爬蟲中使用多執行緒,多程序等功能。
5.網站的反爬措施
釋出股票資訊的大型網站都有自己的反爬措施,我們不做任何處理的快速抓取資訊很容易被網站的反爬措施發現,無法繼續抓取網頁的內容。
6.爬蟲框架的可拓展性
由於公告是在不斷更新的,我們在爬取了歷史資料後如果還想要獲得股票新的公告資訊重新執行爬蟲會很麻煩,針對這種情況,我們需要單獨寫一個模組來實現更新公告資訊的功能。
。,。爬蟲設計面臨的問題大概就是這些,接下來設計爬蟲框架的時候需要時時考慮這些問題。筆者初學python,文章難免有很多不足,請各位多多指教
好了,開始吧