Python3 +Scrapy 爬取騰訊控股股票資訊存入資料庫中

阿新 • • 發佈：2019-01-10

目標網站：http://quotes.money.163.com/hkstock/cwsj_00700.html

每支股票都有四個資料表

找到這四個資料表的資訊所在

資料名

第一條到第三條資料所在

其他三個表也是這樣子尋找，找到資料後，就可以動手爬取了。

於2018\3\17 重寫。

一.Item

# 騰訊控股股票資訊
class GupiaoItem(scrapy.Item):
    # 資料標題
    title = scrapy.Field()

    # 資料名
    dataname = scrapy.Field()

    # 第一條資料
    fristdata = scrapy.Field()

    # 第二條資料
    secondata = scrapy.Field()

    # 第三條資料
    thridata = scrapy.Field()

二.Piplines

資料庫建立

import pymysql

db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='你的密碼', db='資料庫名', charset='utf8')

cursor = db.cursor()

cursor.execute('DROP TABLE IF EXISTS gupiao')

sql = """CREATE TABLE gupiao( 
          title VARCHAR(1024) NOT NULL COMMENT '資料標題', 
          dataname VARCHAR(1024) NOT NULL COMMENT '資料名', 
          fristdata VARCHAR(1024) DEFAULT NULL COMMENT '第一條資料',
          secondata VARCHAR(1024) DEFAULT NULL COMMENT '第二條資料', 
          thridata VARCHAR(1024) DEFAULT NULL COMMENT '第三條資料',  
          createtime DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '建立時間' 
          )"""

cursor.execute(sql)

db.close()

pipline編寫

import pymysql

class MycrawlPipeline(object):
    def __init__(self):
        # 連線資料庫
        self.conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='你的密碼',
                                    db='資料庫名', charset='utf8')
        # 建立遊標物件
        self.cursor = self.conn.cursor()
        self.conn.commit()

    def process_item(self, item, spider):
        # 將item中的資料插入到資料庫中
        try:
            self.cursor.execute("insert into GUPIAO (title, dataname,fristdata,secondata,thridata) \
                        VALUES (%s,%s,%s,%s,%s)",
                                (item['title'], item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
            self.conn.commit()
        except pymysql.Error:
            print("Error%s,%s,%s,%s,%s" % (
            item['title'], item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
        return item

三.Spiders

# -*-coding:utf-8-*-


from scrapy.spiders import Spider
from scrapy.http import Request
from scrapy.selector import Selector
from Mycrawl.items import GupiaoItem


class MovieSpider(Spider):
    # 爬蟲名字，重要
    name = 'gupiao'
    allow_domains = ['quotes.money.163.com']
    start_urls = ['http://quotes.money.163.com/hkstock/cwsj_00700.html']


    def parse(self, response):

        item = GupiaoItem()
        selector = Selector(response)
        datas = selector.xpath('//table[@class="mod-table2 column"]')
        contents = selector.xpath('//table[@class="mod-table2 thWidth205"]')
        titles = selector.xpath('//div[@class="titlebar3"]/span/text()').extract()
        # 共四張表，i 從 0 開始
        for i, each1 in enumerate(contents):
            # 第 i+1 張表的第二列所有資料
            content1 = each1.xpath('tbody/tr/td[1]/div')
            # 第 i+1 張表的第三列所有資料
            content2 = each1.xpath('tbody/tr/td[2]/div')
            # 第 i+1 張表的第四列所有資料
            content3 = each1.xpath('tbody/tr/td[3]/div')
            # 第 i+1 張表的第一列所有資料
            data = datas[i].xpath('tr/td')

            for j, each2 in enumerate(data):
                name = each2.xpath('text()').extract()
                frist = content1[j].xpath('text()').extract()
                second = content2[j].xpath('text()').extract()
                thrid = content3[j].xpath('text()').extract()
                item['title'] = titles[i]
                item['dataname'] = name[0]
                item['fristdata'] = frist[0]
                item['secondata'] = second[0]
                item['thridata'] = thrid[0]

                yield item

四.結果顯示

到此我們的爬蟲就搭建成功了。

五.重寫前的程式碼。

一.Item

class GupiaoItem(scrapy.Item):
    # 資料名
    dataname = scrapy.Field()
    # 第一條資料
    fristdata = scrapy.Field()
    # 第二條資料
    secondata = scrapy.Field()
    # 第三條資料
    thridata = scrapy.Field()

二.Piplines

這裡對應了四個爬蟲，Gupiao0，Gupiao1，Gupiao2,與Gupiao3，所以對應的Spiders也需要四個，

分別爬取股票資訊的四個表。

import pymysql

class MycrawlPipeline(object):
    def __init__(self):
        # 連線資料庫
        self.conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='1likePython',
                                    db='TESTDB', charset='utf8')
        # 建立遊標物件
        self.cursor = self.conn.cursor()
        self.conn.commit()

    def process_item(self, item, spider):
  
        if spider.name == 'Gupiao0':
            try:
                self.cursor.execute("insert into Gupiao (dataname,fristdata,secondata,thridata) \
                        VALUES (%s,%s,%s,%s)", (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
                self.conn.commit()
            except pymysql.Error:
                print("Error%s,%s,%s,%s" % (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
            return item
        
        if spider.name == 'Gupiao1':
            try:
                self.cursor.execute("insert into Gupiao (dataname,fristdata,secondata,thridata) \
                        VALUES (%s,%s,%s,%s)", (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
                self.conn.commit()
            except pymysql.Error:
                print("Error%s,%s,%s,%s" % (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
            return item
        
        if spider.name == 'Gupiao2':
            try:
                self.cursor.execute("insert into Gupiao (dataname,fristdata,secondata,thridata) \
                        VALUES (%s,%s,%s,%s)", (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
                self.conn.commit()
            except pymysql.Error:
                print("Error%s,%s,%s,%s" % (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
            return item
        
        if spider.name == 'Gupiao3':
            try:
                self.cursor.execute("insert into Gupiao (dataname,fristdata,secondata,thridata) \
                        VALUES (%s,%s,%s,%s)", (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
                self.conn.commit()
            except pymysql.Error:
                print("Error%s,%s,%s,%s" % (item['dataname'], item['fristdata'], item['secondata'], item['thridata']))
            return item

三.Spiders

Gupiao0

# -*-coding:utf-8-*-

from scrapy.spiders import Spider
from scrapy.http import Request
from scrapy.selector import Selector

from Mycrawl.items import GupiaoItem
import requests



class MovieSpider(Spider):
    # 爬蟲名字，重要
    name = 'gupiao0'
    # 反爬措施
    # headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
    # url = 'https://movie.douban.com/top250'
    allow_domains = ['quotes.money.163.com']
    start_urls = ['http://quotes.money.163.com/hkstock/cwsj_00700.html']

    '''
    def start_requests(self):
        # url = 'https://movie.douban.com/top250'
        yield Request(self.url, headers=self.headers, callback=self.parse)
    '''

    def parse(self, response):
        item = GupiaoItem()
        selector = Selector(response)
        datas1 = selector.xpath('//table[@class="mod-table2 column"]')
        contents = selector.xpath('//table[@class="mod-table2 thWidth205"]')
        content1 = contents[0].xpath('tbody/tr/td[1]/div')
        content2 = contents[0].xpath('tbody/tr/td[2]/div')
        content3 = contents[0].xpath('tbody/tr/td[3]/div')
        data = datas1[0].xpath('tr/td')
        for i, each in enumerate(data):
            name = each.xpath('text()').extract()
            frist = content1.xpath('text()').extract()
            second = content2.xpath('text()').extract()
            thrid = content3.xpath('text()').extract()
            item['dataname'] = name[0]
            item['fristdata'] = frist[0]
            item['secondata'] = second[0]
            item['thridata'] = thrid[0]

            yield item
        '''
        nextpage = selector.xpath('//span[@class="next"]/link/@href').extract()
        if nextpage:
            nextpage = nextpage[0]

            yield Request(self.url+str(nextpage), headers=self.headers, callback=self.parse)
        '''

Gupiao1

# -*-coding:utf-8-*-

from scrapy.spiders import Spider
from scrapy.http import Request
from scrapy.selector import Selector

from Mycrawl.items import GupiaoItem
import requests



class MovieSpider(Spider):
    # 爬蟲名字，重要
    name = 'gupiao1'
    # 反爬措施
    # headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
    # url = 'https://movie.douban.com/top250'
    allow_domains = ['quotes.money.163.com']
    start_urls = ['http://quotes.money.163.com/hkstock/cwsj_00700.html']

    '''
    def start_requests(self):
        # url = 'https://movie.douban.com/top250'
        yield Request(self.url, headers=self.headers, callback=self.parse)
    '''

    def parse(self, response):
        item = GupiaoItem()
        selector = Selector(response)
        datas1 = selector.xpath('//table[@class="mod-table2 column"]')
        contents = selector.xpath('//table[@class="mod-table2 thWidth205"]')
        content1 = contents[1].xpath('tbody/tr/td[1]/div')
        content2 = contents[1].xpath('tbody/tr/td[2]/div')
        content3 = contents[1].xpath('tbody/tr/td[3]/div')
        data = datas1[1].xpath('tr/td')
        for i, each in enumerate(data):
            name = each.xpath('text()').extract()
            frist = content1.xpath('text()').extract()
            second = content2.xpath('text()').extract()
            thrid = content3.xpath('text()').extract()
            item['dataname'] = name[0]
            item['fristdata'] = frist[0]
            item['secondata'] = second[0]
            item['thridata'] = thrid[0]

            yield item
        '''
        nextpage = selector.xpath('//span[@class="next"]/link/@href').extract()
        if nextpage:
            nextpage = nextpage[0]

            yield Request(self.url+str(nextpage), headers=self.headers, callback=self.parse)
        '''

Gupiao2

# -*-coding:utf-8-*-

from scrapy.spiders import Spider
from scrapy.http import Request
from scrapy.selector import Selector

from Mycrawl.items import GupiaoItem
import requests



class MovieSpider(Spider):
    # 爬蟲名字，重要
    name = 'gupiao2'
    # 反爬措施
    # headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
    # url = 'https://movie.douban.com/top250'
    allow_domains = ['quotes.money.163.com']
    start_urls = ['http://quotes.money.163.com/hkstock/cwsj_00700.html']

    '''
    def start_requests(self):
        # url = 'https://movie.douban.com/top250'
        yield Request(self.url, headers=self.headers, callback=self.parse)
    '''

    def parse(self, response):
        item = GupiaoItem()
        selector = Selector(response)
        datas1 = selector.xpath('//table[@class="mod-table2 column"]')
        contents = selector.xpath('//table[@class="mod-table2 thWidth205"]')
        content1 = contents[2].xpath('tbody/tr/td[1]/div')
        content2 = contents[2].xpath('tbody/tr/td[2]/div')
        content3 = contents[2].xpath('tbody/tr/td[3]/div')
        data = datas1[2].xpath('tr/td')
        for i, each in enumerate(data):
            name = each.xpath('text()').extract()
            frist = content1.xpath('text()').extract()
            second = content2.xpath('text()').extract()
            thrid = content3.xpath('text()').extract()
            item['dataname'] = name[0]
            item['fristdata'] = frist[0]
            item['secondata'] = second[0]
            item['thridata'] = thrid[0]

            yield item
        '''
        nextpage = selector.xpath('//span[@class="next"]/link/@href').extract()
        if nextpage:
            nextpage = nextpage[0]

            yield Request(self.url+str(nextpage), headers=self.headers, callback=self.parse)
        '''

Gupiao3

# -*-coding:utf-8-*-

from scrapy.spiders import Spider
from scrapy.http import Request
from scrapy.selector import Selector

from Mycrawl.items import GupiaoItem
import requests



class MovieSpider(Spider):
    # 爬蟲名字，重要
    name = 'gupiao3'
    # 反爬措施
    # headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
    # url = 'https://movie.douban.com/top250'
    allow_domains = ['quotes.money.163.com']
    start_urls = ['http://quotes.money.163.com/hkstock/cwsj_00700.html']

    '''
    def start_requests(self):
        # url = 'https://movie.douban.com/top250'
        yield Request(self.url, headers=self.headers, callback=self.parse)
    '''

    def parse(self, response):
        item = GupiaoItem()
        selector = Selector(response)
        datas1 = selector.xpath('//table[@class="mod-table2 column"]')
        contents = selector.xpath('//table[@class="mod-table2 thWidth205"]')
        content1 = contents[3].xpath('tbody/tr/td[1]/div')
        content2 = contents[3].xpath('tbody/tr/td[2]/div')
        content3 = contents[3].xpath('tbody/tr/td[3]/div')
        data = datas1[3].xpath('tr/td')
        for i, each in enumerate(data):
            name = each.xpath('text()').extract()
            frist = content1.xpath('text()').extract()
            second = content2.xpath('text()').extract()
            thrid = content3.xpath('text()').extract()
            item['dataname'] = name[0]
            item['fristdata'] = frist[0]
            item['secondata'] = second[0]
            item['thridata'] = thrid[0]

            yield item
        '''
        nextpage = selector.xpath('//span[@class="next"]/link/@href').extract()
        if nextpage:
            nextpage = nextpage[0]

            yield Request(self.url+str(nextpage), headers=self.headers, callback=self.parse)
        '''

分成四個爬蟲只是為了存入資料庫後的資料簡介明瞭，而且後面三個和第一個相比只是修改了一點點，直接複製貼上修改一下即可，並不特別費力。

四.結果顯示

主要財務指標

利潤表

資產負債表

現金流量表

到此我們的爬蟲就搭建成功了。

Python3 +Scrapy 爬取騰訊控股股票資訊存入資料庫中

目標網站：http://quotes.money.163.com/hkstock/cwsj_00700.html每支股票都有四個資料表找到這四個資料表的資訊所在資料名第一條到第三條資料所在其他三個表也是這樣子尋找，找到資料後，就可以動手爬取了。於2018\3\17 重寫。一.

scrapy-redis例項，分佈爬蟲爬取騰訊新聞，儲存在資料庫中

本篇文章為scrapy-redis的例項應用，原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了： python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

python+scrapy入門教程之爬取騰訊招聘職位資訊

我是用的IDE是pycharm,要想使用scrapy我們先安裝模組file-settings-project Interpreter 安裝完成之後我們開啟Terminal 在終端輸入：scrapy startproject tencent 建立spiders我們需要進入spi

Python3.7爬取騰訊地圖關鍵詞位置及電話資訊

朋友創業需要拓展客戶，閒來無事幫朋友搞些資料，網上看到的全是爬取百度地圖的資料，無奈百度地圖AK一直申請不來，便摸索著做個騰訊地圖的小爬蟲，些許小感慨：資料時代，共享無限，隱私難藏啊！實現功能通過指定關鍵詞，自動搜尋騰訊地圖全國範圍內的相關位置及電話資訊，並將結果輸出

python爬蟲--scrapy爬取騰訊招聘網站

背景：虛擬機器Ubuntu16.04，爬取https://hr.tencent.com/招聘資訊！第一步：新建專案：scrapy startproject tencent第二步：編寫items檔案 1 # -*- coding: utf-8 -*- 2 3 # D

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

Python網絡爬蟲Scrapy+MongoDB +Redis實戰爬取騰訊視頻動態評論教學視頻

並發數 www. 深入圖例編程 ppt 研發 read 網絡爬蟲課程簡介學習Python爬蟲開發數據采集程序啦！網絡編程，數據采集、提取、存儲，陷阱處理……一站式全精通！！！目標人群掌握Python編程語言基礎，有誌從事網絡爬蟲開發及數據采集程序開發的人群。學習目

<scrapy爬蟲>爬取騰訊社招信息

extra rul topic osi .org 接收處理 += doc 1.創建scrapy項目 dos窗口輸入: scrapy startproject tencent cd tencent 2.編寫item.py文件(相當於編寫模板,需要爬取的數據在這裏

Python 爬取騰訊電視劇評論

視頻評論爬取騰訊定向爬取騰訊電視劇評論本例思路：打開評論頁面，通過fiddler提取加載評論頁面的網址，對比分析url，構造內容和用戶pattern，然後爬取輸出。1，打開電視劇如果愛頁面https://v.qq.com/x/cover/zjfjxmtdzhowjoz.html，找到下圖影評位置，

用etree和Beautiful Soup爬取騰訊招聘網站

1.lxml 是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML ，支援 XPath (XML Path Language)，使用 lxml 的 etree 庫來進行爬取網站資訊 2.Beautiful Soup支援從HTML或XML檔案中提取資料的Python庫；支援Python標準庫中的H

爬取騰訊課堂的課程評論

最近想了解一下線上教育的課程的如何去選擇，課程的質量如何？所以試著去爬了一下騰訊課堂，只爬了IT網際網路這一項。通過分析發現要想爬取到評論需要是個步驟：解析學習方向，如下圖所示：通過開發者工具審查元素，發現標籤在<dl class="sort-me

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

python爬蟲3——爬取騰訊招聘全部招聘資訊

python爬蟲2中，已經有了初步的程式碼，之後做了優化增加了工作職責、工作要求：獲取的資料有：程式碼如下： #!/usr/bin/env python # -*- coding:utf-8 -*- from bs4 import BeautifulS

python requests 爬取騰訊科技的新聞

昨天收到一道面試題爬取http://tech.qq.com/articleList/rolls/的新聞，當時看到的時候簡直簡單爆了，事實證明的確是，將將將，就是這個頁面，很普通啊，開幹。。。 1.首先發現在檢視原始碼的時候看不見這些資料，所以需要js抓一下，注意到

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

python3 scrapy爬取微信公眾號及歷史資訊V1.0

環境： python3 scrapy 目的寫這篇文章主要是做一下紀念，畢竟是搞了快兩天的東西了，今天加大了量，使用scrapy爬取100多個微信公眾號，然後出現IP被封的情況下，當然了，這種情況並不是沒有辦法解決，只需要在scr

資料採集（三）：用XPath爬取騰訊新聞

需要匯入的庫 import requests from lxml import etree 先用requests.get()方法請求頁面 result=requests.get("http://news.qq.com/") encode=resul

Python爬蟲練習——爬取騰訊新聞

在解析後的文字中，使用select選擇器，在文字中選擇指定的元素，通常我們還會使用find()和findall()方法來進行元素選擇。這一步返回的為一個列表，列表內的元素為匹配的元素的HTML原始碼。

Python3 + Scrapy 爬取豆瓣評分資料存入Mysql與MongoDB資料庫。

首先我們先抓包分析一下，可以看到我們想要的每一頁的全部資料都在"article"下。而其中每一部的電影的資料可以看到在"info"下。所以我們只要在info下找到自己的目標資料並想好匹配方法即可，本文使用的是xpath，其實也可以在spiders中匯入pyquery或者Bea

Python3 +Scrapy 爬取騰訊控股股票資訊存入資料庫中

於2018\3\17 重寫。

一.Item

二.Piplines

三.Spiders

四.結果顯示

五.重寫前的程式碼。

一.Item

二.Piplines

三.Spiders

四.結果顯示

相關推薦