關於如何只用python獲取網頁天氣（數據）的方法

阿新 • • 發佈：2018-08-23

pytho 解析 dsta ads parser 導入 3.0 根據 lang

獲取網頁數據無非就三步！

第一步：首先通過python獲取到前端html完整代碼！（需要用到request模塊）

第二步：通過獲取到的html代碼進行過濾，獲取到有用天氣數據（需要用到bs4模塊下的BeautifulSoup）

第三步：獲取到的天氣數據，進行本地化保存

PS：其它用到的模塊：time、random、socket、csv、http.client

廢話不多說，直接上代碼！

首先，導入引用模塊

from bs4 import BeautifulSoup
import requests, time, random, socket, csv
import http.client

第一步：首先通過python獲取到前端html完整代碼！（需要用到request模塊）

# 獲取請求網址的完整HTML代碼
def htmlcontent(url, data=None):
    header = {
        ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,
        ‘Accept-Encoding‘: ‘gzip, deflate, sdch‘,
        ‘Accept-Language‘: ‘zh-CN,zh;q=0.8‘,
         
‘Connection‘: ‘keep-alive‘,
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235‘
    }   # request 的請求頭
    timeout = random.choice(range(80, 180))
    while True:
        try:
            rep = requests.get(url, headers=header, timeout=timeout)   # 
 請求url地址，獲得返回response信息
            rep.encoding = ‘utf-8‘
            break
        except socket.timeout as e:
            print(‘3:‘, e)
            time.sleep(random.choice(range(8, 15)))

        except socket.error as e:
            print(‘4:‘, e)
            time.sleep(random.choice(range(20, 60)))

        except http.client.BadStatusLine as e:
            print(‘5:‘, e)
            time.sleep(random.choice(range(30, 80)))

        except http.client.IncompleteRead as e:
            print(‘6:‘, e)
            time.sleep(random.choice(range(5, 15)))
    return rep.text   # 返回的Html全部代碼

第一步

第二步：通過獲取到的html代碼進行過濾，獲取到有用天氣數據（需要用到bs4模塊下的BeautifulSoup）

# 過濾篩選有用數據
def weatherdata(html_text):
    data_al = []
    bs = BeautifulSoup(html_text, "html.parser")   # 創建BeautifulSoup對象並以html.parser方式解析
    li = bs.body.find(‘div‘, {‘id‘: ‘7d‘}).find(‘ul‘).find_all(‘li‘)   # 根據前端HTML代碼的標簽獲取具體天氣數據

    for data in li:
        temp = []
        date = data.find(‘h1‘).string
        inf = data.find_all(‘p‘)
        weather = inf[0].string   # 天氣
        temperature_highest = inf[1].find(‘span‘).string    # 最高溫度
        temperature_low = inf[1].find(‘i‘).string   # 最低溫度
        temp.append(date)   # 添加日期
        temp.append(weather)    # 添加天氣
        temp.append(temperature_low)    # 添加最低溫度
        temp.append(temperature_highest)    # 添加最高溫度
        data_al.append(temp)  # 數據全部儲存在一個列表中
    return data_al

第二步

第三步：獲取到的天氣數據，進行本地化保存

# 把數據寫入本地文件
def writedata(data, name):
    with open(name, ‘a‘, errors=‘ignore‘, newline=‘‘) as f:
        f_csv = csv.writer(f)
        f_csv.writerows(data)

第三步

最後，進行調用

if __name__ == ‘__main__‘:
    url = ‘http://www.weather.com.cn/weather/101010100.shtml‘   # 獲取天氣數據的網址
    html = htmlcontent(url)    # 獲取網頁信息
    result = weatherdata(html)    # 解析網頁信息，拿到需要的數據
    writedata(result, ‘C:/Users/LoveCounter/Desktop/天氣test.csv‘)  # 數據寫入到 csv文檔中

完整性代碼，如下：

from bs4 import BeautifulSoup
import requests, time, random, socket, csv
import http.client


# 獲取請求網址的完整HTML代碼
def htmlcontent(url, data=None):
    header = {
        ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,
        ‘Accept-Encoding‘: ‘gzip, deflate, sdch‘,
        ‘Accept-Language‘: ‘zh-CN,zh;q=0.8‘,
        ‘Connection‘: ‘keep-alive‘,
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235‘
    }   # request 的請求頭
    timeout = random.choice(range(80, 180))
    while True:
        try:
            rep = requests.get(url, headers=header, timeout=timeout)   # 請求url地址，獲得返回response信息
            rep.encoding = ‘utf-8‘
            break
        except socket.timeout as e:
            print(‘3:‘, e)
            time.sleep(random.choice(range(8, 15)))

        except socket.error as e:
            print(‘4:‘, e)
            time.sleep(random.choice(range(20, 60)))

        except http.client.BadStatusLine as e:
            print(‘5:‘, e)
            time.sleep(random.choice(range(30, 80)))

        except http.client.IncompleteRead as e:
            print(‘6:‘, e)
            time.sleep(random.choice(range(5, 15)))
    return rep.text   # 返回的Html全部代碼

# 過濾篩選有用數據
def weatherdata(html_text):
    data_al = []
    bs = BeautifulSoup(html_text, "html.parser")   # 創建BeautifulSoup對象並以html.parser方式解析
    li = bs.body.find(‘div‘, {‘id‘: ‘7d‘}).find(‘ul‘).find_all(‘li‘)   # 根據前端HTML代碼的標簽獲取具體天氣數據

    for data in li:
        temp = []
        date = data.find(‘h1‘).string
        inf = data.find_all(‘p‘)
        weather = inf[0].string   # 天氣
        temperature_highest = inf[1].find(‘span‘).string    # 最高溫度
        temperature_low = inf[1].find(‘i‘).string   # 最低溫度
        temp.append(date)   # 添加日期
        temp.append(weather)    # 添加天氣
        temp.append(temperature_low)    # 添加最低溫度
        temp.append(temperature_highest)    # 添加最高溫度
        data_al.append(temp)  # 數據全部儲存在一個列表中
    return data_al


# 把數據寫入本地文件
def writedata(data, name):
    with open(name, ‘a‘, errors=‘ignore‘, newline=‘‘) as f:
        f_csv = csv.writer(f)
        f_csv.writerows(data)


if __name__ == ‘__main__‘:
    url = ‘http://www.weather.com.cn/weather/101010100.shtml‘   # 獲取天氣數據的網址
    html = htmlcontent(url)    # 獲取網頁信息
    result = weatherdata(html)    # 解析網頁信息，拿到需要的數據
    writedata(result, ‘C:/Users/LoveCounter/Desktop/天氣test.csv‘)  # 數據寫入到 csv文檔中

獲取天氣完整性代碼

關於如何只用python獲取網頁天氣（數據）的方法

pytho 解析 dsta ads parser 導入 3.0 根據 lang 獲取網頁數據無非就三步！第一步：首先通過python獲取到前端html完整代碼！（需要用到request模塊）第二步：通過獲取到的html代碼進行過濾，獲取到有用天氣數據（需要用到bs4模

Java抓取網頁數據（原網頁+Javascript返回數據）

class mail 搜索引擎網頁數據點擊 ann 技術 while span 轉載請註明出處！原文鏈接：http://blog.csdn.net/zgyulongfei/article/details/7909006 有時候由於種種原因，我們需要采集某個網站的數

接口測試學習-python第八課（數據驅動測試）

檢查 QQ PE pat spl spa 授權記錄日誌日誌格式自動化分為三類，數據驅動即根據數據去進行測試；代碼驅動即測試都是通過代碼完成的；關鍵字驅動即依靠一些軟件，利用關鍵字完成測試。本次主要記錄數據驅動，自動化框架主要有以下幾個部分： ①獲取用例 ②調用接口

如何直接獲取網頁上的數據到工作表

表格 size 教程 exce ado ESS 工作 col nag 這個網頁上的數據不能復制，如何獲取網頁中的數據到Excel工作表中呢？（常見問題）如何提取網頁上的表格數據怎麽利用excel獲取網上數據如何實時獲取網頁上的數據信息【資料來源於網絡搜索：王西猛講師的網絡課

Python篇----Requests獲取網頁原始碼（爬蟲基礎）

1 下載與安裝見其他教程。 2 Requsts簡介 Requests is an Apache2 Licensed HTTP library, written inPython, for human beings. Python’s standard urllib2

Python學習筆記之基本數據結構方法

ack 字典訪問 mos span 函數返回重復空格不存在通用序列操作：索引，序列中元素從0開始遞增，這些元素可以通過編號訪問分片，使用索引只能訪問單個元素，分片操作可以訪問一定範圍內的元素。list[a:b]：a和b是兩個索引作為邊界，包含索引a對應函數，

jquery中獲取當前選中行數據的方法

需要 fin blog var java 選中行 javascrip 獲取行數 $("table tr").click(function() { var td = $(this).find("td");// 找到td元素 var lo_id = td[1].in

VC++6.0下基於MFC框架利用CInternetSession和CHttpFile獲取網頁資料（附程式碼）

例：從網站http://qq.ip138.com/weather/guangdong/GuangZhou.htm獲取近三天的日期、天氣、溫度、風向，程式碼如下： //新增標頭檔案 #include <afxinet.h> //獲取網路資料 void CSensorSysDlg:

JavaScrip ajaxt和python flask通過json傳遞數據的方法

sub 傳遞數據 pytho process fda 一個實例 get mdf JavaScript調用ajax發送一個json $(‘#cc‘).click(function () { mdffilepath = {

公交一卡通支付無線信號（數據）傳輸聯網

識別數據返回 nfc rs485 watermark 進出 com 狀態多余方案需求現公交快捷支付普遍以IC卡作為充值卡支付手段，以當地城市一卡通/市民卡刷卡支付為基礎，將收費數據進行統一的清算管理。近年來，還有更多的公交、地鐵、BRT使用更快捷的支付方式，如：NF

python獲取網頁精準爬取數據

imp url pil 簡單 vid req pen pro utf import reimport urllib.requeststring=‘<div class="name">(.*?)</div>‘huo=urllib.request.url

python獲取網頁page數，同時按照href批量爬取網頁（requests+BeautifulSoup）

本篇部落格是上篇部落格（http://blog.csdn.net/trisyp/article/details/78732630）的傳參版，即通過html元素獲取頁面的所有href，然後逐個爬取完整程式碼如下： import requests from bs4 impo

Python實例之抓取淘寶商品數據（json型數據）並保存為TXT

sel range ats 表達隨著 request nic rom .get 本實例實現了抓取淘寶網中以‘python’為關鍵字的搜索結果，經詳細查看數據存儲於html文檔中的js腳本中，數據類型為JSON 通過瀏覽器相關工具發現捧腹網笑話頁面的數據存儲在HTML頁面而

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

網易雲 pytho sco 關鍵詞 page json ner urn 頁碼本實例實現了抓取網易雲課堂中以‘java’為關鍵字的搜索結果，經詳細查看請求的方式為post，請求的結果為JSON數據具體實現代碼如下： import requests import json

python pandas模塊,nba數據處理（1）

excel inpu con num 表結構固定 sql 面向列 lines pandas提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。pandas兼具Numpy高性能的數組計算功能以及電子表格和關系型數據（如SQL）靈活的數據處理能力。它提供了復雜精細的

python作業（數據類型續）

一個 title img 刪除 pytho copy logs tle blog 數據類型（續） 1列表定義：[]內以逗號分割開，按照索引，存放各種數據類型，每個位置代表一個元素特性“ 1可以存放多個值 2 可以修改制定索引位置對應的值，可變 3按照從左到右的順序定義列

servlet文件上傳2——復合表單提交（數據獲取和文件上傳）

import bmi util 3.2 utf false ons quest pat 上傳文件時表單enctype屬性必須要更改為<enctype=‘multipart/form-data‘>；采用post提交表單，元素需要有name屬性；利用第三方jar包

在php中分別使用curl的post提交數據的方法和get獲取網頁數據的方法

per 網頁 var ror ring fun 方法 header 語句在php中分別使用curl的post提交數據的方法和get獲取網頁數據的方法整理分享一下額，具體代碼如下：（1）使用php curl獲取網頁數據的方法： $ch=curl_init(); //設

Python——爬取人口遷徙數據（以騰訊遷徙為例）

map car img all spa ima tps .sh compile 說明： 1.遷徙量是騰訊修改後的數值，無法確認真實性。 2.代碼運行期間，騰訊遷徙未設置IP屏蔽和瀏覽器檢測，因此下段代碼僅能保證發布近期有效。 3.代碼功能：爬取指定一天的四十個城市左右的遷徙

Byte Of Python（數據結構）

元組麻煩 emp 對象鍵值 style color index mut 數據結構數據結構（Data Structure）基本上人如其名——它們只是一種結構，能夠將一些數據聚合在一起。換句話說，它們是用來存儲一系列相關數據的集合。 Python中有四種內置的數據結構——

關於如何只用python獲取網頁天氣（數據）的方法

相關推薦