python爬蟲案例——東方財富股票資料採集

阿新 • • 發佈：2019-01-04

通過python爬取東方財富的股票資訊。獲取每隻股票的：總市值淨資產淨利潤市盈率市淨率毛利率淨利率 ROE

先爬取股票匯總頁面。
這裡寫圖片描述

在進入每隻股票的詳情頁，爬取每隻股票的具體資訊。

這裡寫圖片描述

需要安裝BeautifulSoup包（點選下載）、requests包（點選下載）、lxml包（點選下載）

python2.7、python3.6下

#coding=utf-8
import requests,re,json,time,os
import heapq

from bs4 import BeautifulSoup

class GPINFO(object):
    """docstring for GPINFO""" 

    def __init__(self):
        self.Url = 'http://quote.eastmoney.com/stocklist.html'
        self.BaseData = []
        self.Date = time.strftime('%Y%m%d')
        self.Record = 'basedata'+self.Date
        if os.path.exists(self.Record):
            print ('record exist...')
            self.BaseData = self.get_base_data_from_record()
        else 
:
            print ('fuck-get data again...')
            self.get_data()

    #將資料寫入到記錄檔案
    def write_record(self,text):
        with open(self.Record,'ab') as f:
            f.write((text+'\n').encode('utf-8'))

    #從記錄檔案從讀取資料
    def get_base_data_from_record(self):
        ll = []
        with 
 open(self.Record,'rb') as f:
            json_l = f.readlines()
            for j in json_l:
                ll.append(json.loads(j.decode('utf-8')))
        return ll

    #爬蟲獲取資料
    def get_data(self):
        #請求資料
        orihtml = requests.get(self.Url).content
        #建立 beautifulsoup 物件
        soup = BeautifulSoup(orihtml,'lxml')
        #採集每一個股票的資訊
        count = 0
        for a in soup.find('div',class_='quotebody').find_all('a',{'target':'_blank'}):
            record_d = {}
            #代號
            num = a.get_text().split('(')[1].strip(')')  #獲取股票代號
            if not (num.startswith('00') or num.startswith('60')):continue #只需要6*/0*    只要以00或60開頭的股票代號
            record_d['num']=num
            #名稱
            name = a.get_text().split('(')[0]  #獲取股票名稱
            record_d['name']=name
            #詳情頁
            detail_url = a['href']
            record_d['detail_url']=detail_url

            cwzburl = detail_url
            #傳送請求
            try:
                cwzbhtml = requests.get(cwzburl,timeout=30).content  #爬取股票詳情頁
            except Exception as e:
                print ('perhaps timeout:',e)
                continue
            #建立soup物件
            cwzbsoup = BeautifulSoup(cwzbhtml,'lxml')

            #財務指標列表 [浦發銀行，總市值    淨資產    淨利潤    市盈率    市淨率    毛利率    淨利率    ROE] roe:淨資產收益率
            try:
                cwzb_list = cwzbsoup.find('div',class_='cwzb').tbody.tr.get_text().split()  #獲取class為cwzb的div下第一個tbody下第一個tr獲取內部文字，並使用空格分割
            except Exception as e:
                print ('error:',e)
                continue
            #去除退市股票
            if '-' not in cwzb_list:
                record_d['data']=cwzb_list   #將資料加入到字典中
                self.BaseData.append(record_d)  #將字典加入到總資料總
                self.write_record(json.dumps(record_d))  #將字典型別轉化為字串，寫入文字
                count=count+1
                print (len(self.BaseData))

def main():
    test = GPINFO()
    result = test.BaseData
    #[浦發銀行，總市值    淨資產    淨利潤    市盈率    市淨率    毛利率    淨利率    ROE] roe:淨資產收益率]
    top_10 = heapq.nlargest(10,result,key=lambda r:float(r['data'][7].strip('%')))   #獲取前10名利率最高者的資料
    for item in top_10:
        for key in item['data']:
            print(key),
        print('\n')
#列印字串時，使用print str.encode('utf8');
#列印中文列表時，使用迴圈 for key in list：print key
#列印中文字典時，可以使用迴圈，也可以使用json：
#  import json
# print json.dumps(dict, encoding='UTF-8', ensure_ascii=False)


if __name__ == '__main__':
    main()

python爬蟲案例——東方財富股票資料採集

通過python爬取東方財富的股票資訊。獲取每隻股票的：總市值淨資產淨利潤市盈率市淨率毛利率淨利率 ROE先爬取股票匯總頁面。在進入每隻股票的詳情頁，爬取每隻股票的具體資訊。需要安裝BeautifulSoup包（點選下載）、requests包（點選下載）、lxm

【python爬蟲實戰】使用Selenium webdriver採集山東招考資料

[toc] # 1、目標 - 目標：按地區、高校採集2020年擬在山東招生的所有專業資訊 - 採集地址：http://xkkm.sdzk.cn/zy-manager-web/gxxx/selectAllDq# # 2、Selenium webdriver說明 ## 2.1 為什麼使用webdriver

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

Python 爬蟲案例-web微信登陸與消息發送

recv 遺憾內部 set rmq view ons ats ascii 首先回顧下網頁微信登陸的一般流程　　1、打開瀏覽器輸入網址　　2、使用手機微信掃碼登陸　　3、進入用戶界面 1、打開瀏覽器輸入網址首先打開瀏覽器輸入web微信網址，並進行監控： h

Python用tushare庫獲取股票資料批量存入mysql成功

之前用了很多方法無法批量存入mysql中，現在這個方法可以了首先你需要安裝tushare，現在最新版本是1.2.15 2018/10/15 如果之前沒有安裝，請用“開始-所有程式-附件-命令提示符”下輸入pip install tushare 如果之前安裝過，請升級pip in

爬蟲練習--爬取股票資料

爬取股票資料步驟從東方財富網找到上市公司的股票程式碼並儲存根據股票程式碼去百度股市通去查詢相關股票的具體資訊並儲存程式碼 #-*- coding:utf-8 -*- import requests from bs4 import Beauti

Python爬蟲實習筆記 | Week4 專案資料爬取與反思

2018/11/05 1.所思所想：今天我把Python爬蟲實戰這本書Chapter6看完，很有感觸的一點是，書本中對爬蟲實現的模組化設計很給我靈感，讓我對專案中比較無語的函式拼接有了解決之道，內省還是比較興奮。此外，在吃飯問題上需要認真思考下，是否應注意合理的膳食，是否應對要吃的進行好好考究。下

1.1-Python爬蟲案例演示urllib/requests

Python爬蟲urllib/requests 1.urllib模組一個簡單的Python爬蟲框架-案例v1 from urllib import request ''' 使用urllib.request請求一個網頁內容，並把內容打印出來 ''' if __name__ == '__main__'

你以為Python爬蟲只能爬取網頁資料嗎？APP也是可以的呢！

摘要大多數APP裡面返回的是json格式資料，或者一堆加密過的資料。這裡以超級課程表APP為例，抓取超級課程表裡使用者發的話題。 1 抓取APP資料包方法詳細可以參考這篇博文：http://my.oschina.net/jhao104/blog/605963 得到超級課程表

Python語言：下載上證股票資料程式

from urllib.request import urlretrieve f = open('SHA.csv', 'r')for line in f: data = line.split(',') stock_no = '0' + data[0].strip() start_date = data[1]

Python 爬蟲工程師必學——App資料抓取實戰

第1章課程介紹介紹課程目標、通過課程能學習到的內容、學會這些技能能做什麼，對公司業務有哪些幫助，對個人有哪些幫助。介紹目前app資料抓取有哪些困難，面臨的挑戰，本實戰課程會利用哪些工具來解決這些問題，以及本實戰課程的特點 ... 1-1 python爬蟲工程師必備技

某課《Python 爬蟲工程師必學 App資料抓取實戰》

Python爬蟲案例：抓取豆瓣程式設計類高評分書籍

對於很多正在學習計算機的朋友來說，選擇合適的學習材料是非常重要的。本文將通過 Python 來爬取豆瓣程式設計類評分大於 9.0 的書籍。此案例很適合入門爬蟲的朋友學習，總共也就 3 個函式。下圖是最終的結果：下面進入正題：一、採集源分析：首先我們

Python 爬蟲工程師必學 App資料抓取實戰

第5章移動端自動化控制工具詳講本章首先介紹了android開發環境的安裝，為講解uiautomatorviewer工具做準備，android開發環境安裝成功後介紹了uiautomatorviewer工具對app應用介面進行分析，節點定位、xpath編寫介紹了appium-desktop工具的錄製

Python 爬蟲工程師必學 App資料抓取實戰目前最完整

python爬蟲定時增量爬取資料

解決要點： 1.定時更新 2.增量爬取以上兩個技術關鍵點均可基於scrapy開源爬蟲框架擴充解決解決 1.定時爬取在linux下使用crontab來執行scrapy定時爬取的需求。 Crontab命令是Unix系統和類Unix系統中，用來設定週期性執行的

爬蟲案例—中基協資料爬取

因為工作原因，需要爬取相關網站的資料，包括中基協網站和天眼查部分資料。一、中基協網站爬取思路： 1.檢視目標頁：http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&am

python爬取新浪股票資料—繪圖【原創分享】

目標：不做蠟燭圖，只用折線圖繪圖，繪出四條線之間的關係。注：未使用介面，僅爬蟲學習，不做任何違法操作。 1 """ 2 新浪財經，爬取歷史股票資料 3 """ 4 5 # -*- coding:utf-8 -*- 6 7 import num

Python爬蟲 - 獲取美團美食資料

這兩天接觸了一下python爬蟲，根據網上的一些部落格寫了下面的程式碼來抓取美團網上的美食資料，記錄一下。 #from bs4 import BeautifulSoup #解析html或xml檔案的庫 import urllib.request import csv import re imp

Python爬蟲--爬取歷史天氣資料

寫在前面：爬蟲是老鼠屎在進入實驗室後接觸的第一個任務，當時剛剛接觸程式碼的老鼠屎一下子迎來了地獄難度的爬微博簽到資料。爬了一個多月毫無成果，所幸帶我的師兄從未給我疾言厲色，他給與了我最大的包容與理解。儘管無功而返，但是那一個月也給了老鼠屎充足的學習時間，讓老鼠屎對爬蟲

python爬蟲案例——東方財富股票資料採集

python2.7、python3.6下

相關推薦