使用PhantomJS爬取股票資訊

阿新 • • 發佈：2018-12-02

寫在前面

前一段時間使用python+PhantomJS爬取了一些股票資訊，今天來總結一下之前寫的爬蟲。
整個爬蟲分為如下幾個部分，

爬取所有股票列表頁的資訊
爬取所有股票的詳細資訊
將爬取到的資料寫入cvs檔案中，每一種股票為一個CSV檔案

爬取所有股票列表頁的資訊

先來看一下網頁
在這裡插入圖片描述
如上，我們準備先獲取所有的股票名稱和股票程式碼，然後構造成新的URL來爬取詳細的資訊。

先檢視使用的包

from selenium import webdriver
from lxml import etree
import time
import csv

開啟瀏覽器

#開啟瀏覽器
def open_web(url):
    web_info = webdriver.PhantomJS()
    web_info.get(url)
    html = web_info.page_source
    time.sleep(3)
    return html

獲取所有股票程式碼和股票名稱
獲取到所有資訊，並將資訊寫入字典

def get_all_stockcode(html):
    info = {}
    data = etree.HTML(html)
    lis = data.xpath("//div[@class='quotebody']/div/ul/li")
    for li in lis:
        key,value = li.xpath(".//text()")[0].split("(")
        value = value.replace(")"," ".strip())
        info[key] = value
    return info

獲取了所有的股票名稱和股票程式碼之後，開始構造詳細資料網頁的URL，開始爬取詳細的資訊，如下為詳細資料頁面。
在這裡插入圖片描述
4. 獲取詳細頁面

#獲取股票資料並儲存
def get_stock_data(stock_num):
    find_url = "http://www.aigaogao.com/tools/history.html?s="
    #構造URL
    socket_url = find_url+stock_num
    one_stock_html = open_web(socket_url)
    return one_stock_html

獲取詳細頁面的資訊
使用enumerate方法，該方法返回一個索引和一個內容資訊，使用該介面獲取表格中的資料。

def get_stock_infos(infos_html):
    detaile_info = {}

    title = []
    deta_data = etree.HTML(infos_html)
    infos_div = deta_data.xpath("//div[@id='ctl16_contentdiv']/table/tbody/tr")
    for index,info in enumerate(infos_div):
        one_info = {}
        if index == 0:
            title_list = info.xpath(".//td/text()")
            for t in title_list:
                title.append(t)
            #print(index,title)
        else:
            print('*'*40)
            tds_text = info.xpath(".//td/text()")
            if "End" in tds_text[0]:
                break
            tds_a_text = info.xpath(".//td/a/text()")[0]
            tds_span_text = info.xpath(".//td/span/text()")
            time = tds_a_text
            one_info[title[0]] =time
            opening = tds_text[0]
            one_info[title[1]] = opening
            highest = tds_text[1]
            one_info[title[2]] = highest
            lowest = tds_text[2]
            one_info[title[3]] = lowest
            closing = tds_text[3]
            one_info[title[4]] = closing
            volume = tds_text[4]
            one_info[title[5]] = volume
            AMO = tds_text[5]
            one_info[title[6]] = AMO
            up_and_down = tds_text[6]
            one_info[title[7]] = up_and_down
            percent_up_and_down = tds_span_text[0].strip(" ")
            one_info[title[8]] = percent_up_and_down
            if len(tds_text) == 9:
                drawn = tds_text[7]
                SZ = tds_text[8]
            else:
                SZ = tds_text[-1]
                drawn = 0
            one_info[title[9]] = drawn
            percent_P_V = tds_span_text[1].strip(" ")
            one_info[title[10]] = percent_P_V
            one_info[title[11]] = SZ
            percent_SZ = tds_span_text[2].strip(" ")
            one_info[title[12]] = percent_SZ
            print(one_info)
        detaile_info[index] = one_info
    return detaile_info

寫入CVS檔案的介面

#開啟CSV檔案
def save_csv(name,detaile_info):
	#開啟檔案
    with open(name,'w+',newline="",encoding='GB2312') as fp:
        if detaile_info:
        #獲取資料中的詳細資訊
            headers = list(detaile_info[1].keys())
            #寫入頭部資訊
            write = csv.DictWriter(fp,fieldnames=headers)
            write.writeheader()
            #寫入詳細資訊
            for index,info_x in enumerate(detaile_info):
                if index != 0:
                    write.writerow(detaile_info[index])

開始爬取

base_url = "http://quote.eastmoney.com/stocklist.html#sz"
    html = open_web(base_url)
    info = get_all_stockcode(html)
    for socket_name,socket_code in info.items():
        print(socket_name,socket_code)
        html = get_stock_data(socket_code)
        detaile_info = get_stock_infos(html)
        if detaile_info:
            if "*" in socket_name:
                socket_name = socket_name.strip("*")
            csv_name = "s"+socket_name+'.csv'
			save_csv(csv_name,detaile_info)

爬取結果：

在這裡插入圖片描述

使用PhantomJS爬取股票資訊

寫在前面前一段時間使用python+PhantomJS爬取了一些股票資訊，今天來總結一下之前寫的爬蟲。整個爬蟲分為如下幾個部分，爬取所有股票列表頁的資訊爬取所有股票的詳細資訊將爬取到的資料寫入cvs檔案中，每一種股票為一個CSV檔案爬取所

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

Python爬蟲---爬取股票資訊

最近開了個股票賬戶，爬取一下300和600開頭的股票資訊，來篩選股票僅僅爬取資訊，不做排序和分析程式碼地址包含的庫 import requests from bs4 import BeautifulSoup import traceback i

小白學 Python 爬蟲（25）：爬取股票資訊

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

技術路線：requests庫+bs4庫+re庫的整合使用目標：獲得上交所和深交所所有股票的名稱和交易資訊輸出：儲存至本地檔案可選資料網路有：新浪股票和百度股票，，通過檢視網頁原始碼可知，新浪股票的資料是通過javascript指令碼獲取的，故通過以上方式無法解析呃呃

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

使用selenium結合PhantomJS爬取淘寶美食並存儲到MongoDB

cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器，便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver，還有具體的api參考： http://phantomj

selelinum+PhantomJS 爬取拉鉤網職位

one while 對象 bili exe 5.0 設置 expect money 使用selenium+PhantomJS爬取拉鉤網職位信息，保存在csv文件至本地磁盤拉鉤網的職位頁面，點擊下一頁，職位信息加載，但是瀏覽器的url的不變，說明數據不是發送get請求得到的

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

第一週、學會爬取網頁資訊總結

目標：爬取網頁，獲得自己需要的資訊步驟：1. 匯入需要的模組2. 利用request向目標網站獲得網頁資訊3. 用BeautifulSoup解析所獲得的網頁 3. 獲得需要的資訊所在的標籤內容 4. 精簡標籤獲得關鍵資訊5. 獲得關鍵資訊之後，再處理（比如比大小）1、匯入需要的模組BeautifulSoup模

PHP 結合前端 ajax 爬取網站資訊後, 向指定使用者傳送指定簡訊;

<?php /** * Description * @authors Your Name ([email protected]) * # 根據時時彩的最新一期的號碼, 判斷如果為首尾同號則傳送簡訊 * - phpQuery 分析網頁, 獲得網頁資料, 獲得html資料 *

c# 爬蟲爬取商品資訊

在一個小專案中,需要用到京東的所有商品ID,因此就用c#寫了個簡單的爬蟲。在解析HTML中沒有使用正則表示式，而是藉助開源專案HtmlAgilityPack解析HTML。一、下載網頁HTML 首先我們寫一個公共方法用

爬蟲練習--爬取股票資料

爬取股票資料步驟從東方財富網找到上市公司的股票程式碼並儲存根據股票程式碼去百度股市通去查詢相關股票的具體資訊並儲存程式碼 #-*- coding:utf-8 -*- import requests from bs4 import Beauti

使用HtmlAgilityPack爬取網站資訊並存儲

前言：打算做一個藥材價格查詢的功能，但剛開始一點資料都沒有靠自己找資訊錄入的話很麻煩的，所以只有先到其它網站抓取存到資料庫再開始做這個了。 HtmlAgilityPack在c#裡應該很多人用吧，簡單又強大。之前也用它做過幾個爬取資訊的小工具。不過很久了原始碼都沒有了，都忘了怎麼用了，這次也是一點

Python爬取天氣資訊並定時傳送給微信好友(異地戀神器)！！

效果前言中國天氣網： http://www.weather.com.cn/ 點選右上角的具體的天氣資料想獲取哪個城市的天氣，就搜尋城市進行切換這裡以青島為例可以看到此時url為： http://www.weather.com.cn/weat

爬蟲基礎-2-爬取招聘資訊

小生部落格：http://xsboke.blog.51cto.com -------謝謝您的參考，如有疑問，歡迎交流注意:BOSS應該是做了防爬蟲的功能，好像是如果頻繁訪問,就需要輸入一下驗證碼.為了節省時間，當前只爬取了熱門城市的python相關職位資訊

關於phantomjs爬取需要登入頁面並截圖（頁面包含一些非同步請求的資料）

專案有個需求是需要捕獲某個頁面的資料（後端完成），因為之前用過phantom，所以就毫不猶豫的選擇了它，關於phantom的介紹，安裝和簡單使用百度很容易找到，這裡就不再贅述了。之後就開始大刀闊斧的碼起來了，興致沖沖的利用網上找到的擷取某網頁的程式碼（見附錄1）測試。 'use strict'

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

python 3.x 爬蟲基礎前言　　正則表示式是對字串的一種邏輯公式，用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則的字串”，此字串用來表示對字串的一種“過濾”邏輯。正在在很多開發語言中都存在，而非python獨有。對其知識點進行總結後，會寫一個demo。 1.正

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

使用selenium爬取餐廳資訊

一工具及平臺介紹使用python語言爬取使用BeautifulSoup解析爬取餐廳資訊——大眾點評某個地區的餐廳列表匯入到CSV資料夾下使用谷歌瀏覽器二程式碼主要部分解析 1.使用的庫： from selenium import webd

使用PhantomJS爬取股票資訊

寫在前面

爬取所有股票列表頁的資訊

爬取結果：

相關推薦