Scrapy實踐----獲取天氣信息

阿新 • • 發佈：2018-03-02

其余 turn format log mat for hid file 當前

scrapy是一個非常好用的爬蟲框架，它是基於Twisted開發的，Twisted又是一個異步網絡框架，既然它是異步的，那麽執行起來肯定會很快，所以scrapy的執行速度也不會慢的！

如果你還沒沒有學過scrapy的話，那麽我建議你先去學習一下，再來看這個小案例，畢竟這是基於scrapy來實現的！網上有很多有關scrapy的學習資料，你可以自行百度來學習！

接下來進入我們的正題：

如何利用scrapy來獲取某個城市的天氣信息呢？

我們爬取的網站是：天氣網技術分享圖片

　　　　　城市我們可以自定義

1.創建項目名稱

scrapy startproject weatherSpider

2.編寫items.py文件

在這個文件中我們主要定義我們想要抓取的數據:

a.城市名(city)

b.日期(date)

c.天氣狀況(weather)

d.濕度(humidity)

e.空氣質量(air_quality)

 1 import scrapy
 2 
 3 
 4 class WeatherspiderItem(scrapy.Item):
 5     """
 6     設置要爬取的信息
 7     """
 8     city = scrapy.Field()
 9     date = scrapy.Field()
10     weather = scrapy.Field()
 
11     humidity = scrapy.Field()
12     air_quality = scrapy.Field()

3.打開網頁

利用Chrome瀏覽器來提取上面5個信息

技術分享圖片

利用同樣的方式我們可以找到其余4個信息個XPath表達式

4.編寫爬蟲文件

在第3步中我們已經找到我們想要的信息的XPath表達式了,我們就可以開始寫代碼了

 1 import scrapy
 2 from scrapy import loader
 3 
 4 from ..items import WeatherspiderItem
 5 
 6 
 7 class WeatherSpider(scrapy.Spider):
 
 8     name = ‘weather‘
 9     allowed_domains = [‘tianqi.com‘]
10     # 這是事先定義好的城市，我們還可以在裏面添加其他城市名稱
11     cities = [‘shanghai‘, ‘hangzhou‘, ‘beijing‘]
12     base_url = ‘https://www.tianqi.com/‘
13     start_urls = []
14     for city in cities:
15         start_urls.append(base_url + ‘{}‘.format(city))
16 
17 
18 
19 
20     def parse(self, response):
21         """
22         提取上海今天的天氣信息
23         :param response:
24         :return:
25         """
26         # 創建一個ItemLoader，方便處理數據
27         iloader = loader.ItemLoader(WeatherspiderItem(),response=response)
28         iloader.add_xpath("city", ‘//dl[@class="weather_info"]//h2/text()‘)
29         iloader.add_xpath(‘date‘, ‘//dl[@class="weather_info"]/dd[@class="week"]/text()‘)
30         iloader.add_xpath(‘weather‘, ‘//dl[@class="weather_info"]/dd[@class="weather"]‘
31                                      ‘/p[@class="now"]/b/text()‘)
32         iloader.add_xpath(‘weather‘, ‘//dl[@class="weather_info"]/dd[@class="weather"]‘
33                                      ‘/span/b/text()‘)
34         iloader.add_xpath(‘weather‘, ‘//dl[@class="weather_info"]/dd[@class="weather"]‘
35                                      ‘/span/text()‘)
36         iloader.add_xpath(‘humidity‘, ‘//dl[@class="weather_info"]/dd[@class="shidu"]‘
37                                       ‘/b/text()‘)
38         iloader.add_xpath(‘air_quality‘, ‘//dl[@class="weather_info"]/dd[@class="kongqi"]‘
39                                          ‘/h5/text()‘)
40         iloader.add_xpath(‘air_quality‘, ‘//dl[@class="weather_info"]/dd[@class="kongqi"]‘
41                                          ‘/h6/text()‘)
42         return iloader.load_item()

如果覺得困惑為何要使用ItemLoader的話，建議去讀一下關於ItemLoader的官方文檔：傳送門

5.結果保存為JSON格式

要想把我們提取的結果保存到某種文件中，我們需要編寫pipelines

 1 import os
 2 import json
 3 
 4 
 5 class StoreAsJson(object):
 6     def process_item(self, item, spider):
 7         # 獲取工作目錄
 8         pwd = os.getcwd()
 9         # 在當前目錄下創建文件
10         filename = pwd + ‘/data/weather.json‘
11 
12         with open(filename, ‘a‘) as fp:
13             line = json.dumps(dict(item), ensure_ascii=False) + ‘\n‘
14             fp.write(line)

6.添加設置信息

我們寫的pipelines文件要起作用，需要在settings.py中設置

1 ITEM_PIPELINES = {
2     ‘WeatherSpider.pipelines.StoreAsJson‘: 300,
3 }

7.啟動爬蟲

scrapy crawl wether

8.參考資料

從零開始寫Python爬蟲 --- 2.3 爬蟲實踐：天氣預報&數據存儲

如果大家喜歡的話，請點個贊！！O(∩_∩)O

Scrapy實踐----獲取天氣信息

其余 turn format log mat for hid file 當前 scrapy是一個非常好用的爬蟲框架，它是基於Twisted開發的，Twisted又是一個異步網絡框架，既然它是異步的，那麽執行起來肯定會很快，所以scrapy的執行速度也不會慢的！如果你還沒沒

php定位並且獲取天氣信息

location php定位 city ext ons print map res func 1 header("Content-type: text/html; charset=utf-8"); 2 class getWeather{ 3 private

獲取天氣信息

code close nts con pan ini encoding color eat //獲取天氣 function getweather($city){ //傳入需要查詢的城市 $ch = curl_init(); $timeout = 5;

基於觀察者模式獲取天氣信息的實例

多個 add server arraylist stat 主題軟件 over 發生觀察者模式定義：觀察者模式是軟件設計模式的一種，也被稱為模型-視圖（View）模式、源-收聽者(Listener)模式或從屬者模式。觀察者模式定義了一個一對多的依賴關系，讓一個或多個觀察

python 學習筆記 12 -- 寫一個腳本獲取城市天氣信息

unit real bin 程序用例性感小時 == exit 近期在玩樹莓派，前面寫過一篇在樹莓派上使用1602液晶顯示屏，那麽可以顯示後最重要的就是顯示什麽的問題了。最easy想到的就是顯示時間啊，CPU利用率啊。IP地址之類的。那麽我認為呢，假設可以顯示當前時

原生JS和jQuery分別使用jsonp來獲取“當前天氣信息”

原生js gid sync .com fail exit day var har 需掌握的技能點：　　jsonp、跨域相關等。　　以下兩種代碼，均可直接運行。 1、使用原生JS： <!DOCTYPE html> <html lang

android 獲取手機信息工具類

telephony == 系統設備 android pack devices 信息 context package com.yqy.yqy_listviewheadview; import android.content.Context; import androi

獲取css信息

com 但是 tex col 不支持 style css 設置 ons 1 一般情況是用style直接獲取css信息但是style只能獲取到卸載行內的樣式外鏈的和嵌入的樣式會獲取不到 2 2.5　　　　　　　用下面方法獲取外鏈和嵌入的css樣式

天氣信息+叠代器

lec ini ati pri json top .get bsp dex 從網址中抓取城市的天氣信息，實現可叠代對象和叠代器對象，從而方便的進行一組城市的天氣信息查詢 1 # encoding=utf-8 2 import requests 3 # *******

Android之使用MediaMetadataRetriever類獲取媒體信息

ren sym wid cte pad () 許可 card med 一.昨天。介紹了使用MediaMetadataRetriever類來獲取視頻第一幀：http://blog.csdn.net/u012561176/article/details/47858099，今

常用Request對象獲取請求信息

-a 5.1 操作 ica 請求 put form mil 用戶訪問 Request.ServerVariables(“REMOTE_ADDR”) ‘獲取訪問IPRequest.ServerVariables(“LOCAL

匯編實現獲取CPU信息

sof and rsquo api specific module sel cif 獲取這是文章最後一次更新,加入了TLB與Cache信息等資料前言:論壇上面有人不明白CPUID指令的用法,於是就萌生寫這篇文章的想法,若有錯誤話請大俠指出,謝謝了 ^^論壇的式樣貌似有問題

Python+selenium之獲取驗證信息

button pytho sleep 代碼 ive click gin body spa 通常獲取驗證信息用得最多的幾種驗證信息分別是title，URL和text。text方法用於獲取標簽對之間的文本信息。代碼如下： from selenium import webdri

Android ImageView 獲取圖片信息後進行比較

drawable 取圖 etc android ons imageview 需要 image equals ImageView a=(ImageView)findViewById(R.id.imageView2);

snmp4j 異步獲取節點信息

ble 出現異常使用 ptr address void 意思 int transport 1. 主要代碼如下： public class ResponseListenerTest { public static void main(String[] args)

C# 獲取系統信息

計算機名 string con foreach tostring inf machine ima spn public string GetMyOSName() { //獲取當前操作系統信息 OperatingS

UserAgentUtils獲取瀏覽器信息

瀏覽器<dependency> <groupId>eu.bitwalker</groupId> <artifactId>UserAgentUtils</artifactId> <version>1.20</v

selenium獲取元素信息方法(轉載)

btn back 當前 prop 需要 ptp 當前頁返回上一頁 tex 1.獲取當前頁面的Url函數方法：current_url 實例： driver.current_url 2.獲取元素坐標方法：location 解釋：首先查找到你要獲取元素的，然後調用locat

android獲取系統信息

ets osi image 獲取系統屬性進入系統 rop out time 連接手機，adb shell 進入 Android Shell 模式，輸入 getprop 獲取系統屬性值通過上面方法拿到屬性名，然後通過下面方法獲取到系統的屬性值 /** * 獲取buil

js獲取瀏覽器信息

平臺 clas navigator depth 信息 string 屏幕 soft height function message() { txt = "<p>瀏覽器代碼名: " + navigator.appCodeName + "</p>";

Scrapy實踐----獲取天氣信息

相關推薦