Python 實現股票資料的實時抓取

阿新 • • 發佈：2019-01-01

**最近搗鼓股票的東西，想看看股票的實時漲跌資訊，又不想去看網上炒股軟體現有的資訊，所以尋思著自己寫了一個Python的股票當前價格抓取工具：**

一、得到滬深兩市的所有上市股票資料

考慮主要在東方財富網站上面抓取所有的滬深兩市的股票名字和股票程式碼資訊，很多辦法可以爬到這樣的資料，我用了一個爬蟲框架Scrapy（正好在學習），將得到的資料儲存進一個名叫TTJJ.json的檔案中，Scrapy新建一個TTJJ工程，然後我添加了一個user-agent檔案，防止被伺服器ban，（在這兒其實沒什麼用，因為我訪問的頻率不高，伺服器不會拒絕），工程列表如下：

爬蟲的主要程式如TTJJr所示：

from scrapy.spider import Spider
from scrapy.selector import Selector
from TTJJ.items import TTjjItem
import re
from scrapy import log
class TTJJi(Spider):
name = "TTJJ"
allowed_domains=['eastmoney.com']
start_urls = ["http://quote.eastmoney.com/stocklist.html#sh"

]
def parse(self, response):
sel = Selector(response)
cont=sel.xpath('//div[@class="qox"]/div[@class="quotebody"]/div/ul')[0].extract()
item = TTjjItem()
for ii in re.findall(r'<li>.*?<a.*?target=.*?>(.*?)</a>',cont):
item["stockName"

]=ii.split("(")[0].encode('utf-8')
item["stockCode"]=("sh"+ii.split("(")[1][:-1]).encode('utf-8')
log.msg(ii.encode('utf-8'),level="INFO")
yield item
#item["stockCode"]="+------------------------------------------------------------------+"
#yield item
cont1=sel.xpath('//div[@class="qox"]/div[@class="quotebody"]/div/ul')[1].extract()
for iii in re.findall(r'<li>.*?<a.*?target=.*?>(.*?)</a>',cont1):
item["stockName"]=iii.split("(")[0].encode('utf-8')
item["stockCode"]=("sz"+iii.split("(")[1][:-1]).encode('utf-8')
#log.msg(iii.encode('utf-8'),level="INFO")
yield item

網上找了一個UserAgentMiddle的程式碼，只要在settings.py裡面宣告就可以不適用預設的登陸方式了，程式碼如下：

#-*- coding:utf-8 -*-
from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware
import random as rd
from scrapy import log
class UserAgentMiddle(UserAgentMiddleware):
def __init__(self, user_agent=''):
self.user_agent = user_agent
def process_request(self, request, spider):
ua = rd.choice(self.user_agent_list)
if ua:
#顯示當前使用的useragent
print"********Current UserAgent:%s************" %ua
#記錄
log.msg('Current UserAgent: '+ua, level='INFO')
request.headers.setdefault('User-Agent', ua)
#the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape
#for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php
user_agent_list = [\
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
"(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
"(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
"(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
"(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
"(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
"(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
"(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
"(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
"(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]

另外，items定義了一些爬蟲到的資料的儲存格式，以及pipeline裡面定義了對資料的處理方式，也就是儲存進json檔案中，還有一些配置的內容在settings.py裡詳細程式碼分別如下：

Python 實現股票資料的實時抓取

**最近搗鼓股票的東西，想看看股票的實時漲跌資訊，又不想去看網上炒股軟體現有的資訊，所以尋思著自己寫了一個Python的股票當前價格抓取工具：** 一、得到滬深兩市的所有上市股票資料考慮主要在東方財富網站上面抓取所有的滬深兩市的股票

python網路爬蟲實戰——實時抓取西刺免費代理ip

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Python爬蟲練習之一：抓取美團資料

{'poiId': 1653468, 'frontImg': 'http://p0.meituan.net/600.600/mogu/7f102559bd246c78d7f2d2ab066a12d0139144.jpg', 'title': '火宴山（大悅城店）', 'avgScore': 4.9, 'all

Swaggy教你用python實現NBA資料統計的爬取

相信很多喜歡NBA的小夥伴們經常會關注NBA的資料統計，今天我就用虎撲NBA的得分榜為例，實現NBA資料的簡單爬取。https://nba.hupu.com/stats/players是虎撲體育的NBA球員得分榜：當我們右鍵檢視該網站的原始碼時，會發現所有的資料統計都存放在&

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

python 爬蟲（四）抓取Ajax資料

import urllib.request import ssl import json def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

利用Python中的matplotlib模組抓取yahoo finance裡的歷史資料並繪圖

如何自動獲取各個公司的股票歷史資料並繪圖是金融文字情感分析專案裡的必要部分，誠然這些資料在finance.yahoo.com裡可以很方便的看到，但如何利用程式自動獲取、實時顯示卻是個問題。之前一直考慮寫爬蟲來抓取資料，顯然這樣做很費力且效率不高，而Pytho

PHP + curl 實現 http 或 https 抓取資料：

/** * 抓取資料 https 或 http 形式 * @param $url 連結 * @param $data 引數 * @return mixed 返回資料 */ private

實現從網頁上抓取資料(htmlparser)

package com.jscud.test; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; impo

使用Chrome快速實現數據的抓取（二）

run 描述管理 opp socket 請求 icon err protoc 在前面的文章簡單的介紹了一下Chrome調試模式的啟動方式，但前面的API只能做到簡單的打開，關閉標簽操作，當我們需要對某個標簽頁進行詳細的操作時，則需要用到頁面管理API。首先我們還是來回顧下

使用Chrome快速實現數據的抓取（四）——優點

一個 java 海量 height 調試工具 -1 idt socket程序格式些一個抓取WEB頁面的數據程序比較簡單，大多數語言都有相應的HTTP庫，一個簡單的請求響應即可，程序發送Http請求給Web服務器，服務器返回HTML文件。交互方式如下：　　在使用

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

使用Chrome快速實現數據的抓取（五）—— puppeteer

ref google rem 官方簡單的 code web 驅動 ace 如果要以自動化的方式驅動Chrome進行數據抓取，必須實現Chrome Dev Protocol協議的客戶端。這個協議本身並不復雜，我在之前的文章中也簡單的介紹過一下。 Google本身有一個No

python學習筆記——爬蟲的抓取策略

寬度優先寬度重要 ron image alt 學習 http 技術 1 深度優先算法 2 廣度/寬度優先策略 3 完全二叉樹遍歷結果深度優先遍歷的結果：[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 廣度優先遍

python網絡數據抓取二（bing圖片抓取）

.get state 練習 code 請求 lee a-z %d 抓取圖片　　上一回嘗試抓取了百度熱點數據，這次繼續選擇利用bing搜索抓取圖片練習下，代碼放在最下供大家參考。程序需要傳入三個參數，圖片關鍵詞、圖片保存路徑、需要抓取的數量。運行過程中可能會有一些錯誤(大部

Python爬蟲9-----實例-抓取上海高級人民法院網開庭公告數據

web bsp 實例上海取數 tro arc http 融合通過前面的文章已經學習了基本的爬蟲知識，通過這個例子進行一下練習，畢竟前面文章的知識點只是一個一個單獨的散知識點，需要通過實際的例子進行融合。分析網站其實爬蟲最重要的是前面的分析網站，只有對要爬取

基於類的Python多求職網站資訊抓取！

在日常中一個經常的需求是將不同來源的資訊彙總，比如不同網站的求職資訊。一般的架構是針對一個網站寫一個爬蟲，因為不同的網站的網頁結構都不同，所以解析的方式甚至網站請求的方式也不同。如果全部寫在一個模組中會有一些混亂。但是一個比較好的克服的方法是採用類的結構來進行編寫，因為類的擴充套件性比較好，可

nodejs實現網站資料的爬取

1 // 引入https模組，由於我們爬取的網站採用的是https協議 2 const https = require('https'); 3 // 引入cheerio模組，使用這個模組可以將爬取的網頁原始碼進行裝載，然後使用類似jquery的語法去操作這些元素 4 // 在cheerio不是內

Python 實現股票資料的實時抓取

相關推薦