Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

阿新 • • 發佈：2018-11-25

候選網站：
新浪股票：http://finance.sina.com.cn/stock/
百度股票：https://gupiao.baidu.com/stock/

選取原則：

無robots協議
非js網頁
資料在HTMLK頁面中的

F12，檢視原始碼，即可檢視。

新浪股票，使用JS製作。指令碼生成的資料。

百度股票可以在HTML中查詢到！

http://quote.eastmoney.com/stocklist.html

這個地址可以查詢股票詳細列表！
在這裡插入圖片描述

程式思路：

1. 獲取股票列表
2. 根據列表資訊到百度獲取個股資訊2，根據列表資訊到百度獲取個股資訊
3. 將結果儲存

考慮用字典作為資料容器進行儲存！

火狐瀏覽器可以檢視原始碼，藍色的IE瀏覽器就會出現亂碼：
火狐的:
在這裡插入圖片描述
因為a標籤，太多所以正則表示式匹配比較困難。
可用try except來解決！

[s]：表示s。[hz]：表示h z。後面是隨意6個數。
SH:
在這裡插入圖片描述
SZ:

優化：
在這裡插入圖片描述

r.encoding:僅從頭部獲得
r.apparent_encoding:是從全文獲得的。r.apparent_encoding:是從全文獲得的。

優化就是將編碼直接給程式碼，另外一個就是顯示進度。

下面就是程式碼部分啦：

最初的程式碼：(真長)

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}",href)[0])
        except:
            continue
    
def getStockInfo(lst, stockURL, fpath):
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html == "":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div', attrs={'class':'stock-bets'})
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱':name.text.split()[0]})
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valurList[i].text
                infoDict[key] = val

            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict) + '\n')
        except:
            traceback.print_exc()
            continue
def main():
    stock_list_url = 'https://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:\234.txt'
    slist = []
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)

main()

程式碼執行結果;
在這裡插入圖片描述

優化後的程式碼：

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url,code='utf-8'):#預設的是utf-8
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = code#直接賦值
        return r.text
    except:
        return ""
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL,'GB2312')#已經查詢過啦！
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}",href)[0])
        except:
            continue
    
def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html == "":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div', attrs={'class':'stock-bets'})
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱':name.text.split()[0]})
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valurList[i].text
                infoDict[key] = val

            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict) + '\n')
                count = count +1
                print('\r當前速度：{:.2f}%'.format(count*100/len(lst)),end=' ')
        except:
            count = count +1
            print('\r當前速度：{:.2f}%'.format(count*100/len(lst)),end=' ')
            traceback.print_exc()
            continue
def main():
    stock_list_url = 'https://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:\234.txt'
    slist = []
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)

main()

提前給出了編碼方式以及可以顯示進度條的程式碼
給出編碼方式的程式碼：

def getHTMLText(url,code='utf-8'):#預設的是utf-8
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = code#直接賦值
        return r.text
    except:
        return ""
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL,'GB2312')#已經查詢過啦！
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}",href)[0])
        except:
            continue

照片：
（如果不是utf-8，就要提前給替換掉！）
在這裡插入圖片描述
可以顯示進度條的程式碼

def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html == "":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div', attrs={'class':'stock-bets'})
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱':name.text.split()[0]})
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valurList[i].text
                infoDict[key] = val

            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict) + '\n')
                count = count +1
                print('\r當前速度：{:.2f}%'.format(count*100/len(lst)),end=' ')
        except:
            count = count +1
            print('\r當前速度：{:.2f}%'.format(count*100/len(lst)),end=' ')
            traceback.print_exc()
            continue

照片：
在這裡插入圖片描述不過，顯示進度在IDLE那裡不可以顯示。
但是最後我也沒成功有檔案生成以及顯示進度條，算啦。先去吃飯啦~

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

Python爬蟲股票資料定向爬蟲

import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url, code='utf-8'): try: r = reques

python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

目標分析及描述#CrawBaiduStocksA.py import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try:

python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

前言 hello,大家好本章可是一個重中之重，因為我們今天是要爬取一個圖片而不是一個網頁或是一個json 所以我們也就不用用到selenium模組了，當然有興趣的同學也一樣可以使用selenium去爬取。為了方便我們就用requests模組就夠了，因為夠快。。。上章的課程傳送門： [python網路爬蟲

python爬蟲之雲片網國內簡訊介面爬取

安裝requests，lxml，openpyxl，pandas四個包。 requests爬取 lxml解析 panda轉換並儲存 openpyxl是讀寫excel檔案所用到的包程式碼奉上： import pandas as pandas import requests from lxm

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

《Python網路爬蟲之三種資料解析方式？

引入回顧requests實現資料爬取的流程指定url 基於requests模組發起請求獲取響應物件中的資料進行持久化儲存其實，在上述流程中還需要較為重要的一步，就是在持久化儲存之前需要進行指定資料解析。因

05.Python網路爬蟲之三種資料解析方式

一、正則解析二、Xpath解析 --> 測試頁面資料 1 <html lang="en"> 2 <head> 3 <meta charset="UTF-8" /> 4 <

python網路程式設計之互斥鎖

標籤（空格分隔）：互斥鎖程序之間的資料不共享，但是共享同一套檔案系統，所以訪問同一個檔案，或者同一個列印終端，是沒有問題的，而共享帶來的問題就是競爭，競爭帶來的結果就是錯亂，如下： #併發執行,效率高,但競爭同一列印終端,帶來了列印錯亂 from multiprocessing import Pr

python網路程式設計之setsockopt

1、TCP連線的建立方法客戶端在建立一個TCP連線時一般需要兩步，而伺服器的這個過程需要四步，具體見下面的比較。步驟 TCP客戶端 TCP伺服器第一步建立socket物件

Python用tushare庫獲取股票資料批量存入mysql成功

之前用了很多方法無法批量存入mysql中，現在這個方法可以了首先你需要安裝tushare，現在最新版本是1.2.15 2018/10/15 如果之前沒有安裝，請用“開始-所有程式-附件-命令提示符”下輸入pip install tushare 如果之前安裝過，請升級pip in

python網路基礎之程序,執行緒,協程

程序,協程,執行緒的一些總結 # 1.程序：作業系統分配資源的基本單元，multiprocess模組提供了Process類來代表一個程序物件,這個物件可以理解為是一個獨立的程序,可以執行另外的事情 # 建立程序時,只需要傳入一個執行函式和函式的引數,建立一個 Process 例項,用

python網路基礎之正則表示式

下面是我對正則表示式的一些簡單介紹，它多用於爬蟲，用來定製規則 # 正則表示式匯入模組 import re # match只匹配字串的頭 # re.match(正則表示式，需要處理的字串) re.match(r"hello", "hello world") # 大小寫的匹配 re.m

python網路程式設計之udp的聊天室

import socket def main(): #建立套接字 udp_socket = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) udp_socket.bind(("192.168.227.129",7567

零基礎寫python爬蟲之使用Scrapy框架編寫爬蟲

https://www.jb51.net/article/57183.htm 前面的文章我們介紹了Python爬蟲框架Scrapy的安裝與配置等基本資料，本文我們就來看看如何使用Scrapy框架方便快捷的抓取一個網站的內容，隨便選個小站（dmoz.org）來示例吧網

Python網路程式設計之socket應用

1 引言 2 網路基礎 3 socket介紹 4 socket基本使用 5 總結 1 引言本篇主要對Python下網路程式設計中用到的socket模組進行初步總結。首先從網路基礎理論出發，介紹了TC

還在人工爬資料？不用定期敲爬蟲，也能【自動化】訊息爬取的祕訣（內附Python程式碼）

RSS服務Python實做一、安裝我們可以透過Python的套件包：「feedparser 」。讓我們可以輕易的透過Python解析 RSS。Windows 安裝，開啟Command Line：pip install feedparserUbuntu安裝，開啟Terminal：sudo pip insta

Python網路爬蟲之製作股票資料定向爬蟲 以及爬取的優化 可以顯示進度條！

相關推薦

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！