python 爬蟲爬取所有上市公司公告資訊（一）

阿新 • • 發佈：2019-01-07

。，。前面我們已經瞭解了python中多執行緒，selenium，requests等爬蟲基本操作的知識，現在我們準備編寫一個規模較大的爬蟲，目的是爬取所有上市公司2015年至今的公告資訊。

相較於前面幾個簡單的爬蟲功能程式碼，公告資訊爬蟲需要考慮更多的問題，現在可以預見到的問題有

1. 爬取公告資訊網址的選擇

在開始爬取之前我們必須選擇一個合適的資料來源，如果能找到一個好的資料來源會極大的提高爬取的速度。

2.爬取資訊的儲存

在滬深兩市發行股票的公司共有3000多家，我們需要抓取每一家公司從2015年至今的公告資訊，這樣的大量的資訊不可能簡單的儲存到一個檔案中，必須選擇一個合適的資料格式，讓檢視和提取資訊更加方便。

3.網址的排重

由於資料很多，爬蟲可能需要執行很長時間才能完成爬取，這期間很可能會出現各種意外導致爬蟲中斷，此時如果重新爬取資料太浪費時間，我們需要制定url的排重方案在爬取網址前判斷是否爬取過該網址。

4.爬取資訊的速度

因為資料量很大，如果我們採用前面單執行緒的模式進行爬取可能抓一個月也爬不完，為了加快爬取的速度我們需要在爬蟲中使用多執行緒，多程序等功能。

5.網站的反爬措施

釋出股票資訊的大型網站都有自己的反爬措施，我們不做任何處理的快速抓取資訊很容易被網站的反爬措施發現，無法繼續抓取網頁的內容。

6.爬蟲框架的可拓展性

由於公告是在不斷更新的，我們在爬取了歷史資料後如果還想要獲得股票新的公告資訊重新執行爬蟲會很麻煩，針對這種情況，我們需要單獨寫一個模組來實現更新公告資訊的功能。

。，。爬蟲設計面臨的問題大概就是這些，接下來設計爬蟲框架的時候需要時時考慮這些問題。筆者初學python，文章難免有很多不足，請各位多多指教

好了，開始吧

python 爬蟲爬取所有上市公司公告資訊（一）

。，。前面我們已經瞭解了python中多執行緒，selenium，requests等爬蟲基本操作的知識，現在我們準備編寫一個規模較大的爬蟲，目的是爬取所有上市公司2015年至今的公告資訊。相較於前面幾個簡單的爬蟲功能程式碼，公告資訊爬蟲需要考慮更多的問題，現在可以預見到的

python 爬蟲爬取所有上市公司公告資訊（五）

。，。現在我們進過for迴圈，已經獲取到了每一個股票程式碼在2015年至今所有的公告內容連線和公告日期，且是以（日期，公告內容url）元組的形式加入到了爬取佇列中，在最內層迴圈結束後，我們編寫程式實現多執行緒和儲存公告內容的功能。公告最終在對應的json檔案裡是以鍵值對

python 爬蟲爬取所有上市公司公告資訊（二）

。，。設計公告資訊爬蟲面臨的主要問題在上一篇文章已經敘述過了，這篇文章我們選擇合適的資料來源和爬取的方式首先選擇爬取的資料來源，這裡筆者經過多方比較，最終選擇了東方財富網作為公告爬蟲的資料來源。下面以飛馬國際為例（002210）我們可以看到，東方財富網專門設有網頁儲

利用Python爬蟲爬取京東商品的簡要資訊

一、前言　　本文適合有一定Python基礎的同學學習Python爬蟲，無基礎請點選：慕課網——Python入門　　申明：例項的主體框架來自於慕課網——Python開發簡單爬蟲　　語言：Python2 　　IDE：VScode二、何為爬蟲　　傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的UR

Python爬蟲爬取智聯招聘職位資訊

目的：輸入要爬取的職位名稱，五個意向城市，爬取智聯招聘上的該資訊，並列印進表格中 #coding:utf-8 import urllib2 import re import xlwt class ZLZP(object): def __init__(self

python爬蟲爬取鏈家二手房資訊

一種有想做個爬蟲的想法，正好上個月有足夠的時間和精力就學了下scrapy，一個python開源爬蟲框架。好多事開始以為很難，但真正下定決心去做的時候，才發現非常簡單，scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間，從官網例項到我的demo，真是遇到一堆問題，通

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（1）

5-14更新注意：目前拉勾網換了json結構，之前是content - result 現在改成了content- positionResult - result,所以大家寫程式碼的時候要特別注意加上

【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位資訊（2）

上次挖了一個坑，今天終於填上了，還記得之前我們做的拉勾爬蟲嗎？那時我們實現了一頁的爬取，今天讓我們再接再厲，實現多頁爬取，順便實現職位和公司的關鍵詞搜尋功能。之前的內容就不再介紹了，不熟悉的請一定要去看之前的文章，程式碼是在之前的基礎上修改的

爬蟲--爬取csdn訊息並郵箱通知（python3）

之前有很多同學給我發訊息，諮詢相關問題，我都沒能及時回覆解答。主要原因是工作比較忙，部落格沒有每天登入檢視訊息。等到開啟訊息，看一些同學的訊息，無奈都已經過去了多天。所以這裡寫了個小指令碼，每天爬取部落格訊息通知，如果有新訊息，就傳送到個人郵箱提醒。

scrapy抓取拉勾網職位資訊（一）——scrapy初識及lagou爬蟲專案建立

本次以scrapy抓取拉勾網職位資訊作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visual studio一勞永逸，如果報錯缺少前置依賴，就先安裝依賴）本篇

爬取網易雲音樂“三部曲”（一）：爬取歌手資訊！

提到歌神張學友，大家可能不會陌生或者說是如雷貫耳，他可是有著逃犯殺手之稱，這不明天1月11號是他2019世界巡迴演唱會《香港站》的開辦日期，不知香港警方有沒有做好抓逃犯的準備【手動滑稽】。對於歌神明天的演唱會，小編其實挺嚮往的，只是奈何年底了，天天要工作，作為一個程式猿，這也是沒辦法的，為了排遣內心

Python 爬蟲從入門到進階之路（一）

通用爬蟲和聚焦爬蟲根據使用場景，網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網路爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將網際網路上的網頁下載到本地，形成一個網際網路內容的映象備份。通用

Python爬蟲爬取CSDND首頁的所有的文章

# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬蟲爬取CSDND首頁的所有的文章""" html="https://blog.csdn.n

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

python爬蟲爬取NBA貼吧的所有精品貼

首先用直接的方法寫，先嚐試下能否爬取成功 #coding:utf-8 import urllib2,urllib import re ''' 1.準備url地址 2.準備請求頭 3.建立請求物件 4.發起請求獲取第一頁原始碼，接收響應 5.通過第一頁原始碼，找到總頁數和標題

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

【附上解釋】爬取A股所有上市公司的資訊並存儲到資料庫或者是csv檔案中

輸入到mysql版輸出會有警告，但是不影響。附上了詳細的解釋~ import pandas as pd import requests import random from bs4 import BeautifulSoup import pymysql f

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎使用者資訊(上)

本文出自“python修行路”部落格，http://www.cnblogs.com/zhaof/p/7215617.html爬取的思路首先我們應該找到一個賬號，這個賬號被關注的人和關注的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的資訊後，再爬取他關注的人和被關注的人的賬號資訊，然後爬取被

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python 爬蟲爬取所有上市公司公告資訊（一）

相關推薦