python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

阿新 • • 發佈：2018-12-30

目標分析及描述

#CrawBaiduStocksA.py
import requests
from bs4 import BeautifulSoup
import traceback
import re
 
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
 
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue
 
def getStockInfo(lst, stockURL, fpath):
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})
 
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱': name.text.split()[0]})
             
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
             
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
        except:
            traceback.print_exc()
            continue
 
def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)
 
main()

優化一下：

import requests
from bs4 import BeautifulSoup
import traceback
import re
 
def getHTMLText(url, code="utf-8"):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""
 
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL, "GB2312")
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue
 
def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})
 
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱': name.text.split()[0]})
             
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
             
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
                count = count + 1
                print("\r當前進度: {:.2f}%".format(count*100/len(lst)),end="")
        except:
            count = count + 1
            print("\r當前進度: {:.2f}%".format(count*100/len(lst)),end="")
            continue
 
def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)
 
main()

python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

目標分析及描述#CrawBaiduStocksA.py import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try:

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

Python爬蟲股票資料定向爬蟲

import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url, code='utf-8'): try: r = reques

python學習筆記第十一節（叠代和其他）

技術分享 img 余數商品列表步長取數 sorted函數學習四舍五入 yiled 面相過程編程造好內容，統一發給下面上面這個是傻瓜版內置函數 print(divmod(10,3)) 將10除以3，顯示商和余數 enumerate函數，顯示元素及它

python學習筆記列表和元組（三）

python列表（list）是Python以及其他語言中最常用到的數據結構之一。Python使用使用中括號 [ ] 來解析列表。列表是可變的（mutable）——可以改變列表的內容。對應操作：1、查（[]切片操作） name = [‘tom‘,‘張三‘,‘joker‘,‘李四‘] print(name[2])

Python學習筆記：import sys模組（argv、path、platform、exit）

　　sys模組是Python標準庫中自帶的一個模組。　　sys模組包括了一組非常實用的服務，內含很多函式方法和變數，用來處理Python執行時配置以及資源，從而可以與當前程式之外的系統環境互動，如：Python直譯器。　　一、匯入sys模組 import sys #匯入sys模組 dir(sy

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

Python學習筆記系列——高階函數（map/reduce）

from 類型 fun 轉換浮點 color normal 整數 cto from functools import reduce #變量可以指向函數，函數的參數能接受變量，那麽一個函數就可以接受另一個函數作為參數，這種函數被稱之為高階函數 def add(x,y

Python爬蟲入門（爬取某網頁財經部分股票資料）

1：反思部分之前上學期也是看過一點點爬蟲的東西，然後時間太久了也基本哪裡學的又還給哪裡了。然後這兩週的時間被班主任的要求下開始一點一點接觸爬蟲，開始的時候覺的很害怕。可能是因為我這個人的性格，對於未接觸過的事物總有一些莫名的恐懼感，而且之前做東西總習慣了旁邊

《Java與模式》學習筆記之七―――建造模式（Builder Pattern）

問題：當我們要建立的物件很複雜的時候（一般是由很多其它的物件組合而成），最好將物件的建立和表示分離開來，這樣做的好處就是通過一步步地進行復雜物件的建立而且每一步構造的過程引入不同的引數，使得相同的建立步驟可以得到不同的物件。特別是一個物件的多個構造過程的順序一定時，如構造

【Python學習筆記】四、對映（Mapping）

• 通過名字來引用值得資料結構稱為對映字典（Dict）• 字典是鍵值對(key-value pair)的無序可變集合。（1）字典的操作①字典的建立• 字典中的每個元素包含兩部分：鍵和值。• 鍵和值用冒號分隔，元素間用逗號分隔，所有元素放在一對大括號中。d = {key1

Python學習筆記——pycharm web伺服器搭建（5）：概括開發流程

開發流程：利用pycharm建立專案建立應用（python manage.py startapp 應用名稱）建立後在專案settings中註冊模型類的定義（在應用的models.py中定義

Python學習筆記——pycharm web伺服器搭建（6）：Django模型知識點

這篇文章用於記錄Django模型相關知識，發現有需要補充的會隨時新增僅用於記錄，以後方便自己查閱，至於大家能不能看懂，我覺得隨緣就行。 1、自定義模型管理器一般情況下，我們定義的模型類如下 class BookInfo(models.Mo

Python基於AIML智慧聊天機器人實戰（4）- 機器人自學習能力整合

一、前言本文是《Python基於AIML智慧聊天機器人實戰》第四篇：AIML自學習能力整合； AIML是智慧對話機器人具有里程碑意義的開源專案，曾斬獲多項國際大獎，是基於檢索技術的閒聊式智慧對話機器人的基石。在此把過往學習AIML的內容做了專題整理，釋出出

Scrapy爬蟲入門教程七 Item Loaders（專案載入器）

目錄專案載入器巢狀裝載器開發環境： Python 3.6.0 版本（當前最新） Scrapy 1.3.2 版本（當前最新）專案載入器專案載入器提

Python學習筆記——pycharm web伺服器搭建（9）：其他知識點

一、靜態檔案我們要在網頁中載入一張圖，如何做？ settings中新增程式碼： STATIC_URL = '/static/'（已經存在） STATICFILES_DIRS = [ os.path.join(BASE_DIR, 'static

Oracle數據庫12cR2（項目實戰之二）：Linux系統安裝Oracle12.2

oracle12cr2 oracle視頻教程 oracle12cr2安裝 linux上安裝12c linux上安裝12cr2 oracle數據庫12cR2（項目實戰之二）：linux系統安裝Oracle12.2一、課程主題：風哥Oracle數據庫教程12cR2（項目實戰之二）：在linux

Linux系統Oracle12.2 RAC集群實施維護_Oracle數據庫12cR2（項目實戰之五）

oracle教程 oracle培訓 oracle數據庫教程 oracle工程師培訓 oracle數據庫培訓課程目標風哥Oracle數據庫教程12cR2（項目實戰系列）之五：Linux系統上Oracle 12.2 RAC實施與基本維護，包括系統安裝與環境配置、ASM存儲配置、Oracle

python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

目標分析及描述

相關推薦