雙色球網頁歷史資料爬取

阿新 • • 發佈：2018-12-12

存在問題： 該文中將同一個單元格中的開獎資料沒有提取出來

解決方案： 將開獎資料單元格中的七個號碼分別提取存入七個單元格中

import pandas as pd
import csv
import linecache

def get_one_page(page):
    url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_%s.html' % (str(page))
    tb = pd.read_html(url, skiprows=[0, 1])[0]  # 跳過前兩行 （去除前兩行開獎日期	期號	中獎號碼	銷售額(元)	等資訊，後面自己定義標題）
    return tb.drop([len(tb)-1])  # len(tb)是抓取的網頁行數，去掉最後一行（去掉最後一行共116 頁 /2318 條記錄 首頁 上一頁 下一頁 末頁 當前第 1 頁等資訊）

with open(r'F:\PythonFiles\PycharmFile\ssq.csv', 'w', encoding='utf-8-sig', newline='') as csvFile:  #此行注意縮排，不是def定義中的程式碼#開啟檔案的方法
    csv.writer(csvFile).writerow(['開獎日期', '期號', '紅1',  '紅2', '紅3', '紅4', '紅5', '紅6', '藍球','銷售額(元)', '中獎注數一等獎', '中獎注數二等獎'])  #給csv檔案中插入一行

    '''
for i in range(1,2):  # range（其實編號，總共）目前116頁資料
    #第一種方法，整體寫入資料，但不能把同單元格內各球資料分開
    get_one_page(i).to_csv(r'F:\PythonFiles\PycharmFile\ssq.csv', mode='a', encoding='utf_8_sig', header=0, index=0)
    print('第'+str(i)+'頁抓取完成')
    '''
    #第二種方法，逐個寫入資料
for i in range(1,2):  # range（其實編號，總共）目前116頁資料
    reader=get_one_page(i)  #接收到第i頁所有資料
    #print(reader[2][1])   #第二列第一行
    length=len(reader)  #獲取該頁資料的行數
    for j in range(0,length):
        col1=reader[0][j] #每一行第一列開獎日期給資料col1，後面存放到新的資料表中
        col2=reader[1][j]  #該行第二列開獎期號資料給col2
        col=list(filter(None,reader[2][j].split(" ")))  #將第三個存有號碼的單元格進行拆分
        col3=col[0]  #第一個紅球
        col4=col[1]  #第二個紅球
        col5 = col[2]
        col6 = col[3]
        col7 = col[4]
        col8 = col[5]  #藍球
        col9 = col[6]  # 藍球
        col10 = reader[3][j]  #銷售額
        col11 = reader[4][j]  #一等獎中獎注數
        col12 = reader[5][j]  #二等獎中獎注數
        with open(r'F:\PythonFiles\PycharmFile\ssq.csv', 'a', encoding='utf-8-sig', newline='') as csvFile:
            csv.writer(csvFile).writerow([col1,col2,col3,col4,col5,col6,col7,col8,col9,col10,col11])  # 給csv檔案中插入一行

雙色球網頁歷史資料爬取

存在問題：該文中將同一個單元格中的開獎資料沒有提取出來解決方案：將開獎資料單元格中的七個號碼分別提取存入七個單元格中 import pandas as pd import csv import linecache def get_one_page(pa

python+requests+ 爬取官網雙色球開獎資料

python+requests+mysql 爬取官網雙色球開獎資料分析網頁資料獲取方式第一種查詢方式第二種查詢方式注意：連結直接點過去的話是看不到任何東西的，服務端應該設定了某種 Referrer Policy 這個坑困擾了我有一陣剛入坑pyt

機器學習-近9年雙色球開獎資料的頻繁項集

絕大多數的人都有過一夜暴富的夢想，購買雙色球便是實現這種夢想的方式之一，因此各種專家號推薦層出不窮。在這裡我想嘗試用機器學習的方法來揭開雙色球的祕密，即一切用資料說話。本著娛樂至上的目的為大家帶來一次“殺號定膽”的遊戲。資料採集雙色球歷史資料：

Java爬蟲雙色球中獎歷史

程式碼如下：package com.zemel; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; im

多線程+隊列爬取雙色球福利彩票歷史數據

sta chrome 雙色球 get page ror pad utf 爬取 #!/usr/bin/python -- coding:UTF-8 -- @Author : Anic.Mo @Time : 2018/6/18 12:51 @File : sc

Python爬取雙色球資料進行分析

突發奇想，是否可以從雙色球的歷史資訊中分析出現次數最多的組合，那就從1+1的組合開始分析，嘿嘿，經常中這種組合也挺不錯哦！現在我們開始獲取資料，應該從中彩網的爬取資料比較靠譜，下面是指令碼。 # -*- coding:utf-8 -*- import re

python爬取雙色球資料+資料統計

彩票資料爬去---寫入mysql： import requests import re#python中的正

Python爬取彩票雙色球並存到把數據excel表格裏

python 爬蟲環境：python3目的：爬取15年的雙色球開獎號以及期數和開獎日期：上代碼#!/usr/bin/env python3 #-*-coding:utf-8-*- # @Author : 杜文濤 # @Time : 2018/4/19 16:01 # @File : c

使用Python對雙色球號碼進行爬取

使用Python福彩官網對雙色球進行爬取很久之前寫的一個小爬蟲，程式碼其實有點冗雜，看官姥爺們如果有什麼可以指點的地方，儘量拍，謝謝~ 一點一點加油吧觀察一下除了第一頁之外其他頁面的索引可以用index_+num來實現得出程式碼

爬蟲雙色球所有的歷史資料並儲存到SQLite

前言上一篇介紹了雙色球走勢圖是怎麼實現的，這一篇介紹怎麼實現爬蟲所有的雙色球歷史資料，也可以同步分享怎麼同步福彩3D資料。採用的C#來實現的。同步雙色球的地址：https://datachart.500.com/ssq/history/newinc/history.php?start={0}&en

java網頁資料爬取

java網頁資料爬取寫在前面書籤全部匯出爬取前的處理開始爬取並儲存 java網頁資料爬取寫在前面在瀏覽器書籤中有許多經典的東西，有時候什麼忘記了需要去

python資料分析6:雙色球使用線性迴歸演算法預測下期中獎結果

本次將進行下期雙色球號碼的預測，想想有些小激動啊。程式碼中使用了線性迴歸演算法，這個場景使用這個演算法，預測效果一般，各位可以考慮使用其他演算法嘗試結果。發現之前有很多程式碼都是重複的工作，為了讓程式碼看的更優雅，定義了函式，去呼叫，頓時高大上了 #!/usr/bi

scrapy網頁跳轉後進行資料爬取

因為一開始的網站爬取的是一個href，所以需要去跳轉一下，即發一個Request <a href="https://XXX.com.cn/w/2018-11-24/doc-ihpevhck4340972.html">你好</a> 以下是自己的程式碼：

截止2016年5月之前雙色球資料統計

原始資料來自中彩網，5月(2016056)之後我把爬蟲停了，最近可能資料都要刪了，把統計結果share一下 1:379:0.193861892583 2:293:0.149872122762 3:259:0.132480818414 4:208:0.106393861893

挖挖雙色球——資料探勘技術分享

最近雙色球比較熱鬧，因為河南1彩民獨中雙色球3.6億鉅獎！《媒體報道：2009年10月8日，國慶長假結束前的最後一天，在這個註定要被寫進中國彩票史的日子，河南省安陽市成為了全國矚目的焦點。當期中國福利彩票“雙色球”第2009118期開獎，全國中出93注頭獎，單注獎金

python資料分析2:雙色球藍紅球分析統計

newdata.txt資料樣子 ... 2005-08-21, 05,10,23,27,28,30,15 2005-08-18, 04,05,17,18,26,33,04 2005-08-16, 09,12,18,21,28,29,05 ... 一、藍球統計： ana

爬蟲—歷史天氣預報資料爬取

爬取某一年哈爾濱市的天氣預報資訊。網址需要爬取2016年整年的資料。 import urllib.request from bs4 import BeautifulSoup import pa

網頁版雙色球號碼生成工具

注：需要自己新增和修改jquery.js的引用路徑。 <!doctype html> <html> <head> <meta charset="utf-8"> <style> .red_ball{ width

java基礎知識應用--雙色球開獎號碼

雙色球開獎 java基礎開獎號碼 public 　　雙色球是中國福利彩票的玩法，雙色球分為紅色球號碼區和藍色球號碼區，紅色球號碼區由1-33共３３個號碼組成，藍色球號碼區由1-16共１６個號碼組成，開獎號碼由6個不重復的紅色球號碼和1個藍色球號碼共７個數組成。　　首先要設置三個數組來分別保存

Java 用兩個一維數組實現雙色球彩票

flag true 模擬用兩個 div for arr 全部 lean 設計一個程序，模擬雙色球的選號過程（6個藍球+1個紅球），要求：生成的6個紅球號碼不重復數字大小在（1-33）之間，藍球大小（1-16）之間。思路： 1、創建一個int類型的一維數組balls

雙色球網頁歷史資料爬取

相關推薦