經典爬蟲：爬取百度股票

阿新 • • 發佈：2018-12-19

關鍵字： 百度股票 爬蟲 檔案儲存

前言

百度股票 URL ：https://gupiao.baidu.com/stock/ + sz300059 +.html，其中以 sh 開頭的代表上交所掛牌交易的股票，以 sz 開頭的代表深交所掛牌交易的股票。

東方財富.png

第一步我們要在 東方財富網 爬取類似 sz300059 這樣的股票代號：

HTML下載器

def getHTML(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return 
 r.text
    except:
        return ""

URL生成器

def getStockURL(nameurl, urllist):
    html = getHTML(nameurl) #呼叫HTML下載器
    name = re.findall('[s][hz]\d{6}', html)
    for item in name:
        urllist.append("https://gupiao.baidu.com/stock/%s.html" %item)

從 東方財富網 下載類似 sz300059 這樣的股票代號，我們呼叫 re 庫，再用正則表示式 [s][hz]\d{6}

去完成匹配。

獲取股票資訊並儲存

def getStockInfo(urllist, fpath):
    for i in range(len(urllist)):
        html = getHTML(urllist[i]) #呼叫HTML下載器
        soup = BeautifulSoup(html, "html.parser")
        try:
            info = {}
            title = soup.find_all('a', attrs={'class':'bets-name'})[0]
            info. 
update({'股票名稱': title.text.split()[0]}) #初始化股票名稱
            keylist = soup.find_all('dt')
            valuelist = soup.find_all('dd')
            lenth = len(keylist)
            for i in range(lenth):
                key = keylist[i].text
                value = valuelist[i].text
                info[key] = value

            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(info) + '\n')
        except:
            traceback.print_exc()
            continue

soup.find('Tag') 返回的是 bs4.element.Tag 型別。
soup.find_all('Tag') 返回的是 bs4.element.ResultSet 型別。
soup.find('Tag').children 返回的是生成器。
trackback 庫的 print_exc() 函式可以捕獲並列印異常。
更多 BeautifulSoup 資訊參考這裡：點我

為了讓程式碼不斷打印出當前進度，我們可以把這段程式碼改動一下：

def getStockInfo(urllist, fpath):
    count = 0
    for i in range(len(urllist)):
        html = getHTML(urllist[i]) #呼叫HTML下載器
        soup = BeautifulSoup(html, "html.parser")
        try:
            info = {}
            title = soup.find_all('a', attrs={'class':'bets-name'})[0]
            info.update({'股票名稱': title.text.split()[0]}) #初始化股票名稱
            keylist = soup.find_all('dt')
            valuelist = soup.find_all('dd')
            lenth = len(keylist)
            for i in range(lenth):
                key = keylist[i].text
                value = valuelist[i].text
                info[key] = value

            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(info) + '\n')
                count = count + 1
                print("\r當前進度: {:.2f}%".format(count * 100 / len(urllist)), end="")

        except:
            count = count + 1
            print("\r當前進度: {:.2f}%".format(count * 100 / len(urllist)), end="")
            continue

結尾

最後股票資訊會儲存在 D 盤的 BaiduStockInfo.txt 中：

全碼

import traceback
import requests
import re
from bs4 import BeautifulSoup

def getHTML(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def getStockURL(nameurl, urllist):
    html = getHTML(nameurl) #呼叫HTML下載器
    name = re.findall('[s][hz]\d{6}', html)
    for item in name:
        urllist.append("https://gupiao.baidu.com/stock/%s.html" %item)

def getStockInfo(urllist, fpath):
    count = 0
    for i in range(len(urllist)):
        html = getHTML(urllist[i]) #呼叫HTML下載器
        soup = BeautifulSoup(html, "html.parser")
        try:
            info = {}
            title = soup.find_all('a', attrs={'class':'bets-name'})[0]
            info.update({'股票名稱': title.text.split()[0]}) #初始化股票名稱
            keylist = soup.find_all('dt')
            valuelist = soup.find_all('dd')
            lenth = len(keylist)
            for i in range(lenth):
                key = keylist[i].text
                value = valuelist[i].text
                info[key] = value

            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(info) + '\n')
                count = count + 1
                print("\r當前進度: {:.2f}%".format(count * 100 / len(urllist)), end="")

        except:
            count = count + 1
            print("\r當前進度: {:.2f}%".format(count * 100 / len(urllist)), end="")
            continue


def main():
    urllist = []
    nameurl = "http://quote.eastmoney.com/stocklist.html"
    output_file = 'D:/BaiduStockInfo.txt' #輸出地址
    getStockURL(nameurl, urllist)
    getStockInfo(urllist, output_file)

main()

小尾巴

歡迎掃碼關注我的公眾號：爬蟲小棧，一起進步的小棧。

經典爬蟲：爬取百度股票

關鍵字：百度股票爬蟲檔案儲存前言百度股票 URL ：https://gupiao.baidu.com/stock/ + sz300059 +.html，其中以 sh 開頭的代表上交所掛牌交易的股票，以 sz 開頭的代表深交所掛牌交易的股票。第一

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

完整的爬蟲程序爬取百度貼吧的圖片

列表文檔 for tieba http ... 自增 num 圖片 #!/usr/bin/env python#-- coding:utf-8 -- import osimport urllibimport urllib2from lxml import etree cl

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

Python3爬蟲-selenium爬取百度文庫

這是筆者爬取的第一個動態載入的網頁，使用的IDE是Pycharm，選擇的是百度文庫的一篇16年六級卷子的文件。若直接使用requests模組去得到網頁原始碼，會發現所得非所見，不能獲取到文件中的內容。看了網上數篇博文的思路，最後還是嘗試了使用selenium

Python3爬蟲之爬取百度高清圖片

#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: OFZFZS # Datetime:2018/3/23 11:00 # Description: 百度圖片爬取這裡只做了簡單處理,注意百度圖片返回的資料是aja

python爬蟲(13)爬取百度貼吧帖子

爬取百度貼吧帖子一開始只是在網上看到別人寫的爬取帖子的文章，然後自己就忍不住手癢自己鍛鍊一下，然後照著別人的寫完，發現不太過癮，畢竟只是獲取單個帖子的內容，感覺內容稍顯單薄，然後自己重新做了修改，把它變成重寫成了一個比較強大的爬蟲精簡版本簡介通過帖子的地址，獲

Python爬蟲例項--爬取百度貼吧小說

Python爬蟲例項–爬取百度貼吧小說寫在前面本篇文章是我在簡書上寫的第一篇技術文章，作為一個理科生，能把僅剩的一點文筆拿出來獻醜已是不易，希望大家能在指教我的同時給予我一點點鼓勵，謝謝。一.介紹小說吧：顧名思義，是一個小說

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

python爬取百度翻譯返回：{'error': 997, 'from': 'zh', 'to': 'en', 'query 問題

escape result words fan use rip odin 解決 base 解決辦法：修改url為手機版的地址：http://fanyi.baidu.com/basetrans User-Agent也用手機版的測試代碼： # -*- coding: utf

Python爬蟲 - 爬取百度html代碼前200行

http src mage bsp bubuko str 百度爬蟲圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

pythonp爬蟲爬取百度音樂

www code focus rfi aid xtra trac cookie bds #coding=utf-8 import requests import re import time from bs4 import BeautifulSoup

Python爬蟲為何可以這麽叼？爬取百度雲盤資源！並保存到自己雲盤

源碼下載表達 har .cn bdb 裏的 image AC 賬號登錄點擊它，再點擊右邊的【Cookies】就可以看到請求頭裏的 cookie 情況。 cookie分析除了上面說到的兩個 cookie ，其他的請求頭參數可以參照手動轉存

PHP爬蟲-爬取百度貼吧首頁違規主題貼

因為是第一次寫，感覺有點冗餘。不過嘛，本文章主要面向不知道爬蟲為何物的小夥伴。o(∩_∩)o <?php $url='http://tieba.baidu.com/f?ie=utf-8&kw=php&fr=search'; // 地址 $html = file_ge

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

經典爬蟲：爬取百度股票

前言

HTML下載器

URL生成器

獲取股票資訊並儲存

結尾

全碼

小尾巴

相關推薦