使用scrapy進行股票數據爬蟲

阿新 • • 發佈：2017-09-18

key proc txt 框架 mage 技術分享 date star self.

周末了解了scrapy框架，對上次使用requests+bs4+re進行股票爬蟲（http://www.cnblogs.com/wyfighting/p/7497985.html）的代碼，使用scrapy進行了重寫。

目錄結構：

技術分享

stocks.py文件代碼

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 import re
 4  
 5  
 6 class StocksSpider(scrapy.Spider):
 7     name = "stocks"
 8     start_urls = [‘http://quote.eastmoney.com/stocklist.html 
‘]
 9  
10     def parse(self, response):
11         for href in response.css(‘a::attr(href)‘).extract():
12             try:
13                 stock = re.findall(r"[s][hz]\d{6}", href)[0]
14                 url = ‘https://gupiao.baidu.com/stock/‘ + stock + ‘.html‘
15                 yield scrapy.Request(url, callback=self.parse_stock)
 
16             except:
17                 continue
18  
19     def parse_stock(self, response):
20         infoDict = {}
21         stockInfo = response.css(‘.stock-bets‘)
22         name = stockInfo.css(‘.bets-name‘).extract()[0]
23         keyList = stockInfo.css(‘dt‘).extract()
24         valueList = stockInfo.css(‘ 
dd‘).extract()
25         for i in range(len(keyList)):
26             key = re.findall(r‘>.*</dt>‘, keyList[i])[0][1:-5]
27             try:
28                 val = re.findall(r‘\d+\.?.*</dd>‘, valueList[i])[0][0:-5]
29             except:
30                 val = ‘--‘
31             infoDict[key]=val
32  
33         infoDict.update(
34             {‘股票名稱‘: re.findall(‘\s.*\(‘,name)[0].split()[0] + 35              re.findall(‘\>.*\<‘, name)[0][1:-1]})
36         yield infoDict

pipelines.py文件代碼：

 1 # -*- coding: utf-8 -*-
 2  
 3 # Define your item pipelines here
 4 #
 5 # Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
 6 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
 7  
 8  
 9 class BaidustocksPipeline(object):
10     def process_item(self, item, spider):
11         return item
12  
13 class BaidustocksInfoPipeline(object):
14     def open_spider(self, spider):
15         self.f = open(‘BaiduStockInfo.txt‘, ‘w‘)
16  
17     def close_spider(self, spider):
18         self.f.close()
19  
20     def process_item(self, item, spider):
21         try:
22             line = str(dict(item)) + ‘\n‘
23             self.f.write(line)
24         except:
25             pass
26         return item

settings.py文件中被修改的區域：

1 # Configure item pipelines
2 # See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
3 ITEM_PIPELINES = {
4     ‘BaiduStocks.pipelines.BaidustocksInfoPipeline‘: 300,
5 }

使用scrapy進行股票數據爬蟲

key proc txt 框架 mage 技術分享 date star self. 周末了解了scrapy框架，對上次使用requests+bs4+re進行股票爬蟲（http://www.cnblogs.com/wyfighting/p/7497985.html）的代碼，使

自學python之爬蟲3股票數據爬蟲

trace _for 進行 cnblogs js代碼 encoding href slist 保存目標：獲取股票上交所和深交所所有股票的名稱和交易信息，保存在文件中使用到的技術：requests+bs4+re 網站的選擇（選取原則：股票信息靜態存在HTML頁面，非js代

scrapy進行分布式爬蟲

處的測試安裝 nag redis數據庫 key 客戶端訪問效果非關系型數據庫今天，參照崔慶才老師的爬蟲實戰課程，實踐了一下分布式爬蟲，並沒有之前想象的那麽神秘，其實非常的簡單，相信你看過這篇文章後，不出一小時，便可以動手完成一個分布式爬蟲！ 1、分布式爬蟲原理首

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

開啟Scrapy專案之旅之二：用Scrapy進行專案爬蟲管理

1、進入scrapy資料夾下，建立Scrapy專案 scrapy startproject myfirstpjt 2、進入自己建立的scrapy專案中： cd myfirstpjt 進入後，我們可以對該爬蟲專案進行管理，可以通過工具命令實現，下節介紹。 3、爬蟲專

爬蟲練習五：多進程爬取股市通股票數據

pen ... 3.6 job form append head odi date 在上網查閱一些python爬蟲文章時，看見有人分享了爬取股票的交易數據，不過實現得比較簡單。這裏就做個小練習，從百度股票批量爬取各股票的交易信息。文章出處為：Python 爬蟲實戰(2)：

利用python進行數據分析——histogram

python hist()DataFrame.hist(data, column=None, by=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None,ax=None, sharex=False, sharey=Fal

Python進行數據分析之一：相關Package的安裝

ans 防止 log matplot 行數據解釋原型簡單下載一、為什麽要使用Python進行數據分析？ python擁有一個巨大的活躍的科學計算社區，擁有不斷改良的庫，能夠輕松的集成C,C++,Fortran代碼（Cython項目），可以同時用於研究和原型的構建以

如何正確的對安卓手機進行數據恢復？

鏡像 size rri mem 背景文件大小 cover 分享詳細摘要：很多人覺得數據恢復就是拿工具掃一掃，這種想法是非常錯誤的。想幹好一件事，絕不是僅僅機械性的重復固有動作，必須要加入個人的思考。比如對安卓手機的數據恢復，你真的會嗎？ 0×00 背景介紹很多人都

使用excel進行數據挖掘（6）---- 預測

max 表示 jsb cast tail 用戶 roman order 報表在配置環境後，能夠使用excel進行數據挖掘。環境配置問題可參閱： http://blog.csdn.net/xinxing__8185/article/details/4644543

使用SharedPreferences進行數據存儲

lin 表示 class 輕量 white www pub 操作 margin Android中存在著5種存儲數據的方法： 1、使用SharePreferences存儲數據 2、文件存儲 3、SQLite數據庫存儲 4、使用ContentProvider存儲數據 5、網絡存

PYTHON學習（三）之利用python進行數據分析(1)---準備工作

-- 下載 rip 安裝包 png 要求 eight code 電腦　　學習一門語言就是不斷實踐，python是目前用於數據分析最流行的語言，我最近買了本書《利用python進行數據分析》（Wes McKinney著），還去圖書館借了本《Python數據分析基礎教程--N

進行數據庫進程的殺死

Owner des ram table esc program mach oracl locked select /*+ rule */ s.username, decode(l.type,‘TM‘,‘TABLE LOCK‘,‘TX‘,‘ROW LOCK‘,nul

使用django和vue進行數據交互

com 狀態 method tag comm 文章 json tor 目錄一、前端請求的封裝 1.將請求地址封裝起來，以便日後修改，在src/assets/js目錄下創建getPath.js文件 export default function getUrl(str) {

使用文件進行數據存儲四種模式

append 視頻筆記 bsp private 存在操作模式 mod 如果 tput 視頻筆記： 1.應用包名：唯一標識一個應用 2.使用文件進行數據存儲：（1）Context.MODE_PRIVATE: 默認操作模式，代表該文件是私有數據，只能被應用本身訪問，在該模式

Express框架與html之間如何進行數據傳遞

enc end 加載 context 菜鳥添加如果 post lose 關於Node.js 的Express框架介紹，推薦看菜鳥教程的Express框架，很適合入門，這裏不再贅述，這裏主要講一下Express框架與html之間如何進行數據傳遞我采用的是JQuery的A

對比倆個Excel中的數據，並且進行數據操作

color 通過類庫分享並且多條 ado.net .cn server 項目需要，去對比倆個Excel中的數據是否一樣，不一樣需要做替換，有個同事在處理中（處理了一天 1000 多條吧，移交給我），本人在想通過人工手動的方式，一個個做對比得花多長時間啊，主

ADO.NET 連接方式進行數據訪問

record tail sql事務擴展性 cal next pos parameter dml 1.　連接環境簡介 1.1.　連接環境的特點　? 連接環境是指用戶在這種環境下始終保持與數據源的連接　? 優點　　–環境易於實施安全控制　　– 同步問題易於控制　? 數據實時性

使用Dev中的GridView進行數據增刪操作

comm focus 工具 selected orm 窗口 str item code 使用OracleHelper（一個C#操作Oracle數據庫的工具類），連接的打開關閉全部交給OracleHelper去做。進行增加數據信息時，新開增加數據信息的窗口，並且接受窗口

ADO.NET 非連接方式進行數據訪問

sqlserver server 解決沖突 dsc 系統運行 ada src 檢索 1.　配置 DataAdapter 以檢索信息　1.1.　DataAdapter 　? 數據適配器是數據集與數據源交互的橋梁　　–使相當於數據源本地拷貝的數據集可以與數據源之間進行交互

使用scrapy進行股票數據爬蟲

相關推薦