爬蟲實戰：爬蟲加資料分析，重慶電氣小哥一文帶你分析重慶所有旅遊景點

阿新 • • 發佈：2021-02-18

技術標籤：爬蟲爬蟲 python

寒假已經到了，玩是要玩的，作為一個地地道道的重慶電網小哥，今天想用python爬蟲+資料分析的方式告訴你重慶哪些地方好玩。

先上一張最後景區地點分佈結果圖

資料來源：去哪兒旅行

網址：去哪兒旅行-重慶

用request請求到json資料

第一部分：爬蟲

資料搜尋：小試牛刀

import requests
keyword = "重慶"
page=1#列印第一頁

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36" 
}
url = f'http://piao.qunar.com/ticket/list.json?keyword={keyword}&region=&from=mpl_search_suggest&page={page}'
res = requests.request("GET", url, headers=headers)

try:
    res_json = res.json()
    data = res_json['data']
    print(data)
except:
    pass

結果

json返回的資料格式是字典型，我們需要從中找到我感興趣的關鍵詞

搜尋結果
發現我們感興趣的是sightList

於是可以修改程式碼為

import requests
keyword = "重慶"
page=1

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"}
url = f'http://piao.qunar.com/ticket/list.json?keyword={keyword}&region=&from=mpl_search_suggest&page={page}' 

res = requests.request("GET", url, headers=headers)


res_json = res.json()
sightLists = res_json['data']['sightList']#sightList是感興趣的
for  sight in sightLists:
    print(sight)

再次提取資訊，修改程式碼為

import requests
import pandas as pd
keyword = "重慶"
page=1#檢視第一頁

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"}
url = f'http://piao.qunar.com/ticket/list.json?keyword={keyword}&region=&from=mpl_search_suggest&page={page}'
res = requests.request("GET", url, headers=headers)


res_json = res.json()
sightLists = res_json['data']['sightList']#sightList是感興趣的
for  sight in sightLists:
    name=(sight['sightName'] if 'sightName' in sight.keys() else None)#名稱
    districts=(sight['districts'] if 'districts' in sight.keys() else None)#地址
    star=(sight['star'] if 'star' in sight.keys() else None) #星級
    qunarPrice=(sight['qunarPrice'] if 'qunarPrice' in sight.keys() else None)#最低價格
    saleCount=(sight['saleCount'] if 'saleCount' in sight.keys() else None)#購買人數
    score=(sight['score'] if 'score' in sight.keys() else None )#評分
    point=(sight['point'] if 'point' in sight.keys() else None )#座標位置
    intro=(sight['intro'] if 'intro' in sight.keys() else None)#介紹
    print('名稱：{0}，地址:{1},星級：{2}，價格:{3},saleCount:{4}，評分:{5},座標:{6},介紹:{7}'.format(name,districts,star,qunarPrice,saleCount,score,point,intro))

我們需要將資料寫入表格。

import requests
import pandas as pd
import numpy as np
keyword = "重慶"
page=1#檢視第一頁

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"}
url = f'http://piao.qunar.com/ticket/list.json?keyword={keyword}&region=&from=mpl_search_suggest&page={page}'
res = requests.request("GET", url, headers=headers)


res_json = res.json()
sightLists = res_json['data']['sightList']#sightList是感興趣的
for  sight in sightLists:
    name=(sight['sightName'] if 'sightName' in sight.keys() else None)#名稱
    districts=(sight['districts'] if 'districts' in sight.keys() else None)#地址
    star=(sight['star'] if 'star' in sight.keys() else None) #星級
    qunarPrice=(sight['qunarPrice'] if 'qunarPrice' in sight.keys() else None)#最低價格
    saleCount=(sight['saleCount'] if 'saleCount' in sight.keys() else None)#購買人數
    score=(sight['score'] if 'score' in sight.keys() else None )#評分
    point=(sight['point'] if 'point' in sight.keys() else None )#座標位置
    intro=(sight['intro'] if 'intro' in sight.keys() else None)#介紹
    #print('名稱：{0}，地址:{1},星級：{2}，價格:{3},saleCount:{4}，評分:{5},座標:{6},介紹:{7}'.format(name,districts,star,qunarPrice,saleCount,score,point,intro))

    shuju=np.array((name,districts,star,qunarPrice,saleCount,score,point,intro))
    shuju=shuju.reshape(-1,8)
    shuju=pd.DataFrame(shuju,columns=['名稱','地址','星級','最低價格','購買人數','評分','座標位置','介紹'])
    #print(shuju)

    shuju.to_csv('重慶景點資料.csv', mode='a+', index=False,header=False)  # mode='a+'追加寫入

多頁爬取
前面以一頁資料為例，整理出啦大概程式碼，現在需要爬取多頁

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu 餘登武
# @Date  : 2021/1/30
import requests
import pandas as pd
import numpy as np
import random
from time import sleep
def get_data(keyword, page):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"}
    url = f'http://piao.qunar.com/ticket/list.json?keyword={keyword}&region=&from=mpl_search_suggest&page={page}'
    res = requests.request("GET", url, headers=headers)
    sleep(random.uniform(1, 2))
    try:
        res_json = res.json()
        sightLists = res_json['data']['sightList']  # sightList是感興趣的
        for sight in sightLists:
            name = (sight['sightName'] if 'sightName' in sight.keys() else None)  # 名稱
            districts = (sight['districts'] if 'districts' in sight.keys() else None)  # 地址
            star = (sight['star'] if 'star' in sight.keys() else None)  # 星級
            qunarPrice = (sight['qunarPrice'] if 'qunarPrice' in sight.keys() else None)  # 最低價格
            saleCount = (sight['saleCount'] if 'saleCount' in sight.keys() else None)  # 購買人數
            score = (sight['score'] if 'score' in sight.keys() else None)  # 評分
            point = (sight['point'] if 'point' in sight.keys() else None)  # 座標位置
            intro = (sight['intro'] if 'intro' in sight.keys() else None)  # 介紹
            # print('名稱：{0}，地址:{1},星級：{2}，價格:{3},saleCount:{4}，評分:{5},座標:{6},介紹:{7}'.format(name,districts,star,qunarPrice,saleCount,score,point,intro))

            shuju = np.array((name, districts, star, qunarPrice, saleCount, score, point, intro))
            shuju = shuju.reshape(-1, 8)
            shuju = pd.DataFrame(shuju, columns=['名稱', '地址', '星級', '最低價格', '購買人數', '評分', '座標位置', '介紹'])
            # print(shuju)

            shuju.to_csv('重慶景點資料.csv', mode='a+', index=False, header=False)  # mode='a+'追加寫入
    except:
        pass


if __name__ == '__main__':
    keyword = "重慶"
    for page in range(1, 75):  # 控制頁數
        print(f"正在提取第{page}頁")
        sleep(random.uniform(1, 2))
        get_data(keyword, page)

1000多條資料，原來重慶這麼多好玩的

第二部分：資料分析

前面我們爬取了資料，現在來分析下。

1.讀取資料

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif'] = ['SimHei']  # 設定載入的字型名
plt.rcParams['axes.unicode_minus'] = False#

df=pd.read_csv('重慶景點資料.csv',header=None,names=list(['名稱', '地址', '星級', '最低價格', '購買人數', '評分', '座標位置', '介紹']))
df = df.drop_duplicates()#刪除重複資料。得到470行資料
print(df.head())

去除重複資料後，得到重慶有470處景點

2.景點價格分析
最高Top20

df_qunarPrice = df.pivot_table(index='名稱',values='最低價格')
df_qunarPrice.sort_values('最低價格',inplace=True,ascending=False)#降序
#print(df_qunarPrice[:20])#最高價格top20
df_qunarPrice[:20].plot(kind='barh')
plt.title('價格最高Top20')
plt.show()

最低Top20

df_qunarPrice = df.pivot_table(index='名稱',values='最低價格')
df_qunarPrice.sort_values('最低價格',inplace=True,ascending=True)
#print(df_qunarPrice[:20])#最高價格top20
df_qunarPrice[:20].plot(kind='barh')
plt.title('最低Top20')
plt.show()

3.景點評分分析
評分最高Top20

#評分TOP20景點
df_score = df.pivot_table(index='名稱',values='評分')
df_score.sort_values('評分',inplace=True,ascending=False)
df_score[:20].plot(kind='barh',color='red')#barh橫條形圖
plt.title('評分最高Top20')
plt.show()

評分最低Top20

df_score = df.pivot_table(index='名稱',values='評分')
df_score.sort_values('評分',inplace=True,ascending=True )
df_score[:20].plot(kind='barh',color='red')#barh橫條形圖
plt.title('評分最低Top20')
plt.show()

沒有評分（可能是網站還未收錄該地方評分吧…）

4.月銷售額分析
最高Top20

df_saleCount = df.pivot_table(index='名稱',values='購買人數')
df_saleCount.sort_values('購買人數',inplace=True,ascending=False)
df_saleCount[:20].plot(kind='barh',color='green')#barh橫條形圖
plt.title('月銷售額最高Top20')
plt.show()

最低Top20（可能未收錄該地方資料把，可能該地方免費吧）

5.景點等級分佈

from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.globals import ThemeType

df_star = df["星級"].value_counts()
df_star = df_star.sort_values(ascending=False)
print(df_star)

查詢有等級的景點名稱，即3星級及其以上

print(df[df["星級"]!='無'].sort_values("星級",ascending=False)['名稱'])

展示部分圖，太多啦

6.景點地址地圖繪圖
先儲存文字地檔案

df["lon"] = df["座標位置"].str.split(",",expand=True)[0]#經度
df["lat"] = df["座標位置"].str.split(",",expand=True)[1]#緯度
df.to_csv("data重慶.csv")

繪製地圖

import pandas as pd

stations = pd.read_csv('data重慶.csv',delimiter=',')

from pyecharts.charts import Geo
from pyecharts import options
from pyecharts.globals import GeoType

g = Geo().add_schema(maptype="重慶")

# 給所有點附上標籤 'StationID'
for i in stations.index:
    s = stations.iloc[i]
    g.add_coordinate(s['名稱'],s['lon'],s['lat'])#地區名稱，經度，緯度

# 給每個點的值賦為 1
data_pair = [(stations.iloc[i]['名稱'],1) for i in stations.index]

# 畫圖
g.add('',data_pair, type_=GeoType.EFFECT_SCATTER, symbol_size=2)
g.set_series_opts(label_opts=options.LabelOpts(is_show=False))
g.set_global_opts(title_opts=options.TitleOpts(title="重慶景點分佈圖by-yudengwu"))

# 儲存結果到 html
result = g.render('stations.html')

主城區那邊好玩的多

在這裡插入圖片描述

作者：電氣-餘登武。寫作屬實不易，如果你覺得很好，動個手點個贊再走。

爬蟲實戰：爬蟲加資料分析，重慶電氣小哥一文帶你分析重慶所有旅遊景點

技術標籤：爬蟲爬蟲python 寒假已經到了，玩是要玩的，作為一個地地道道的重慶電網小哥，今天想用python爬蟲+資料分析的方式告訴你重慶哪些地方好玩。

超長解析：一文帶你分析與解決分散式系統互斥性與冪等性問題

隨著網際網路資訊科技的飛速發展，資料量不斷增大，業務邏輯也日趨複雜，對系統的高併發訪問、海量資料處理的場景也越來越多。如何用較低成本實現系統的高可用、易伸縮、可擴充套件等目標就顯得越發重要。

爬蟲實戰：爬取相親網站，看看當下年輕小姐姐的擇偶觀。

技術標籤：爬蟲爬蟲python 前言到了一定年齡，父母可能會催你找女朋友，結婚。大多數的父母催婚，是父母漸漸老了，想讓你找個人照顧你，有熱飯吃，生病了有人照顧。在外面不被人欺負。當然，也有一部分來自周

一文帶你瞭解Python 四種常見基礎爬蟲方法介紹

一、Urllib方法 Urllib是python內建的HTTP請求庫 import urllib.request #1.定位抓取的url url=\'http://www.baidu.com/\'

綜述：一文帶你瞭解情感分析的方法有幾種

聯通又出新措施了，一文帶你探索聯通大資料的前世今生

3月21日閉市後，中國聯通上市公司披露2月份運營資料公告。圍繞網路強國、數字中國、智慧社會建設，為更好地反映公司抓住新機遇、擁抱新變化、實現新發展的積極進展，中國聯通打破20年來上市傳統，首次系統優化月度自

從0到1一文帶你瞭解分析分散式事務

目錄什麼是事務？換個角度看事務 Java 中的事務什麼是分散式事務？分散式事務的幾種實現思路

【轉載】一文帶你搞定頁面許可權、按鈕許可權以及資料許可權

本文來源於RudeCrab，作者RudeCrab 前言許可權這一概念可以說是隨處可見：等級不夠進入不了某個論壇版塊、對別人發的文章我只能點贊評論但不能刪除或修改、朋友圈一些我看得了一些看不了，一些能看七天內的動態

一文帶你用 SQL 征服數學建模資料處理

一文帶你領略 SQL 的強大 1. SQL 簡介 SQL (Structured Query Language:結構化查詢語言) 是用於用於管理關係資料庫管理系統（RDBMS）。 SQL 的範圍包括資料插入、查詢、更新和刪除，資料庫模式建立和修改，

C++STL快速入門：一文帶你快速搞懂string類的常用方法

技術標籤：C&C++ 本篇文章來給大家介紹下C++STL中String類一些比較常用的用法。

一文帶你走遍Git世界，教會你Git的使用

@目錄這篇文章教會Git1. Git是什麼？1.1 發展歷程1.2 Git是什麼？1.3 Git和SVN2.Git有什麼用?2.1 程式碼合併2.2 程式碼備份2.3 程式碼還原2.4 問題追溯3. Git的使用（重點）3.1 下載3.2 建立版本庫3.3 如何把檔案新增

一文帶你 GNN 從入門到起飛，做一個飯盆最穩 GNN 飯人！

摘要：本文介紹了圖神經網路在學界和業界的發展情況，並給出了圖神經網路的基本概念與表示形式，總結了圖神經網路的變體，最後介紹了華為雲圖神經網路框架。

一文帶你玩轉深度學習：神經網路基礎知識、環境配置、theano、TensorFlow

今天來聊聊深度學習，深度學習到底有多熱門，這樣說吧，總之你能想象到的領域，在未來都可能應用到深度學習，非常值錢。更重要的是，“深度學習”演算法包含精妙的思想，可以體現這個時代的精神。

一文帶你通過Sentinel原始碼，讀懂微服務限流底層原理！

前言限流是保障服務高可用的方式之一，尤其是在微服務架構中，對介面或資源進行限流可以有效地保障服務的可用性和穩定性。

一文帶你走進js-資料型別與資料結構的世界

目錄1. 什麼叫動態型別2. 資料型別2.1 原始型別（6 種原始型別，使用 typeof 運算子檢查）2.2 null 與 Object3. 原始值3.1 原始值基本概念3.2 各型別說明1. 什麼叫動態型別

跟Java初學者分享幾點經驗，死鎖全詳解，一文帶你搞定

1、上下文切換上下文定義 cpu發生程序或者執行緒切換時，所依賴的資料集合，比如一個函式有外部變數，函式執行時，必須獲取外部變數，這些變數值的集合就是上下文。

Win11 明日釋出，一文帶你看完 Windows 前世今生

10 月 4 日訊息幾個月前，微軟正式宣佈 Win 11 的發售時間是 2021 年 10 月 5 日，也就是明天。本次升級，微軟承諾會為符合硬體條件的 Win 10 正版使用者提供免費升級。不過，對於萬眾矚目的安卓 App 支援功能，微軟

一文帶你瞭解圖和圖分析

1. 什麼是圖近幾年，全球大資料進入了加速發展時期，資料量呈指數級增長。大資料中不同個體間的關聯關係產生的資料以圖的形式呈現。這裡的圖是針對數學中的“圖論”而言，主要是由點和邊組成的資料結構。頂點相當於

玩轉叢集配置中心，一文帶你瞭解 Taier 控制檯

原文地址：玩轉叢集配置中心，一文帶你瞭解Taier控制檯丨DTMO 03期直播回顧（內含視訊+課件）

Python爬蟲實戰：自動化登入網站，爬取商品資料

前言隨著網際網路時代的到來，人們更加傾向於網際網路購物。某東又是電商行業的巨頭，在某東平臺中有很多商家資料。今天帶大家使用python+selenium工具獲取這些公開的商家資料

爬蟲實戰：爬蟲加資料分析，重慶電氣小哥一文帶你分析重慶所有旅遊景點

第一部分：爬蟲

第二部分：資料分析

相關推薦