Python網路爬蟲--歷史天氣資料採集

阿新 • • 發佈：2019-01-07

在很多機器學習應用中，天氣資料為重要的輔助特徵資料，故本文主要介紹如何利用Python獲取歷史天氣資料。

目標網站

資料爬取的目標網站為天氣網

這裡寫圖片描述

程式設計實現

匯入相關包

import requests  # 匯入requests
from bs4 import BeautifulSoup  # 匯入bs4中的BeautifulSoup
import os
import re
import csv
import pandas as pd
import numpy as np
import time
import json

下面以爬取北京市歷史天氣資料為例進行演示：

獲取所有月份URL

分析網頁原始碼可知，所有月份的URL在’tqtongji1’的div中。

這裡寫圖片描述

實現程式碼如下：

def get_url(request_url):
    html = requests.get(request_url).text
    Soup = BeautifulSoup(html, 'lxml') # 解析文件
    all_li = Soup.find('div', class_='tqtongji1').find_all('li')
    url_list = []
    for li in all_li:
        url_list.append([li.get_text(), li.find('a' 
)['href']])       
    return url_list

獲取某月份的歷史天氣資料

獲取到月份URL後，分析月份的頁面原始碼可知，歷史天氣資料在’tqtongji2’的div中。

這裡寫圖片描述

原始碼如下：

def get_month_weather(request_url, year_number, month_number):
    # month_url = 'http://lishi.tianqi.com/beijing/201712.html'
    url_list = get_url(request_url)
    for i in range(len(url_list)-1 
, -1, -1):
        year_split = int(url_list[i][0].encode('utf-8')[:4])
        month_split = int(url_list[i][0].encode('utf-8')[7:9])
        if year_split == year_number and month_split == month_number:
            month_url = url_list[i][1]
    html = requests.get(month_url).text
    Soup = BeautifulSoup(html, 'lxml') # 解析文件
    all_ul = Soup.find('div', class_='tqtongji2').find_all('ul')
    month_weather = []
    for i in range(1, len(all_ul)):
        ul = all_ul[i]
        li_list = []
        for li in ul.find_all('li'):
            li_list.append(li.get_text().encode('utf-8'))
        month_weather.append(li_list)
    return month_weather

獲取某年的歷史天氣資料

將各月份的資料彙總即可得到年曆史天氣資料。

原始碼如下：

def get_year_weather(request_url, year_number):
    year_weather = []
    for i in range(12):
        month_weather = get_month_weather(request_url, year_number, i+1)
        year_weather.extend(month_weather)
        print '第%d月天氣資料採集完成，望您知悉！'%(i+1)
    col_name = ['Date', 'Max_Tem', 'Min_Tem', 'Weather', 'Wind', 'Wind_Level']
    result_df = pd.DataFrame(year_weather)
    result_df.columns = col_name
    # result_df.to_csv('year_weather.csv')
    return result_df

執行’result_df = get_year_weather(request_url, 2017)’，結果如下：

這裡寫圖片描述

廣告時間

這裡寫圖片描述

歡迎您掃一掃上面的二維碼，關注我的微信公眾號！

Python網路爬蟲--歷史天氣資料採集

在很多機器學習應用中，天氣資料為重要的輔助特徵資料，故本文主要介紹如何利用Python獲取歷史天氣資料。目標網站資料爬取的目標網站為天氣網程式設計實現匯入相關包 import requests # 匯入reques

python網路爬蟲磁碟快取資料

import os import re import urllib.parse import pickle class DiskCache: def __init__(self,cache_dir='cache'): self.cache_dir=cache_dir

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

Python網路爬蟲實戰(二)資料解析

上一篇說完了如何爬取一個網頁，以及爬取中可能遇到的幾個問題。那麼接下來我們就需要對已經爬取下來的網頁進行解析，從中提取出我們想要的資料。根據爬取下來的資料，我們需要寫不同的解析方式，最常見的一般都是HTML資料，也就是網頁的原始碼，還有一些可能是Json資料，Json資料是一種輕量級的資料交換格式，相對來說

python網路爬蟲-資料採集之遍歷單個爬蟲

之所以稱之為爬蟲（Web Carwler）是因為它們可以沿著網路爬行。它們的本質就是一種遞迴方式。為了找到URL連結，它們必須首先獲取網頁內容，檢查這個頁面的內容，在尋找另外一個URL，然後後獲取URL對應的網頁內容，不斷迴圈這一過程。不過要注意的是：你可以這樣重

Python爬蟲--爬取歷史天氣資料

寫在前面：爬蟲是老鼠屎在進入實驗室後接觸的第一個任務，當時剛剛接觸程式碼的老鼠屎一下子迎來了地獄難度的爬微博簽到資料。爬了一個多月毫無成果，所幸帶我的師兄從未給我疾言厲色，他給與了我最大的包容與理解。儘管無功而返，但是那一個月也給了老鼠屎充足的學習時間，讓老鼠屎對爬蟲

資料處理（玩轉python網路爬蟲）

從網頁上採集的資料後，大多數的資料是雜亂無章的，這時就需要對資料進行加工處理，去掉一些垃圾資料才能得到我們想要的資料。常用的方法有以下三種方法：字串操作，正則表示式和第三方模組庫。一、字串操作（擷取、替換、查詢和分割）（1）擷取：字串[開始位置:結束位置:間隔位置] 開始位置為

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

《Python網路爬蟲之三種資料解析方式？

引入回顧requests實現資料爬取的流程指定url 基於requests模組發起請求獲取響應物件中的資料進行持久化儲存其實，在上述流程中還需要較為重要的一步，就是在持久化儲存之前需要進行指定資料解析。因

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

05.Python網路爬蟲之三種資料解析方式

一、正則解析二、Xpath解析 --> 測試頁面資料 1 <html lang="en"> 2 <head> 3 <meta charset="UTF-8" /> 4 <

利用python的bs4和selenium庫結合實現動態頁面的爬取（爬取天氣網上面的歷史天氣資料）

報告分析需要歷史氣象資料，查詢到天氣網上面有歷史天氣資料，從2011年到2018年，第一次接觸爬蟲，在網上找了爬取天氣網歷史資料的python原始碼，利用bs4庫，但是實際操作中發現soup.select( )函式返回的列表總是[ ] （空），查詢發現天氣網目前使用的是javascript寫的動態頁

爬蟲—歷史天氣預報資料爬取

爬取某一年哈爾濱市的天氣預報資訊。網址需要爬取2016年整年的資料。 import urllib.request from bs4 import BeautifulSoup import pa

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

python網路爬蟲（10）分散式爬蟲爬取靜態資料

目的意義爬蟲應該能夠快速高效的完成資料爬取和分析任務。使用多個程序協同完成一個任務，提高了資料爬取的效率。以百度百科的一條為起點，抓取百度百科2000左右詞條資料。說明參閱模仿了：https://book.douban.com/subject/27061630/。作者說是簡單的分散式爬蟲（

Python網路爬蟲——Appuim+夜神模擬器爬取得到APP課程資料

一、背景介紹隨著生產力和經濟社會的發展，溫飽問題基本解決，人們開始追求更高層次的精神文明，開始願意為知識和內容付費。從2016年開始，內容付費漸漸成為時尚。羅輯思維創始人羅振宇全力打造“得到APP”就是這樣一款優質的可以聽音訊、學通識課程、看電子書、看直播、記筆記的知識付費平臺，得到匯聚羅振宇、薛兆豐、樑

Python 網路爬蟲實戰：爬取 B站《全職高手》20萬條評論資料

本週我們的目標是：B站（嗶哩嗶哩彈幕網 https://www.bilibili.com ）視訊評論資料。我們都知道，B站有很多號稱“鎮站之寶”的視訊，擁有著數量極其恐怖的評論和彈幕。所以這次我們的目標就是，爬取B站視訊的評論資料，分析其為何會深受大家喜愛。首先去調研一下，B站評論數量最多的視訊是哪一

Python網路爬蟲--歷史天氣資料採集

目標網站

程式設計實現

匯入相關包

獲取所有月份URL

獲取某月份的歷史天氣資料

獲取某年的歷史天氣資料

廣告時間

相關推薦