python爬蟲：爬取窮遊網的地點資料，世界那麼大，我想去看看。

阿新 • • 發佈：2020-12-21

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

一、前言

世界那麼大，我想去看看。
要麼讀書，要麼旅遊，身體和心靈必須有一個在路上。
想必大家心裡都向往旅遊，那麼旅遊中的行程安排和地區熱門景點有哪些呢？
可能都需要在網上去找旅遊攻略，今天就帶大家採集旅遊網站的景點資料。

二、課程亮點

系統分析網頁性質
結構化的資料解析
csv資料儲存

三、所用到得庫

import csv
import requests
import parsel
from concurrent.futures import ProcessPoolExecutor
 
import multiprocessing

四、環境配置

python 3.6
pycharm
requests
parsel
csv

五、爬蟲案例的一般實現步驟:

1.找資料所在的URL地址
2.傳送網路請求
3.資料的解析(我們需要的資料)
4.資料的儲存

六、找尋資料所在處

lock = multiprocessing.Lock()  # 建立程序鎖物件

def send_request(url):
    """請求資料"""
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36 
'}
    html_data = requests.get(url=url, headers=headers).text
    return html_data

七、完整程式碼：

def parse_data(html_data):
    selector = parsel.Selector(html_data)
    lis = selector.xpath('//ul[@class="plcCitylist"]/li')

    for li in lis:
        travel_place = li.xpath('.//h3/a/text()').get()  # 目的地 

        travel_people = li.xpath('.//p[@class="beento"]/text()').get()  # 去過的人數

        travel_hot = li.xpath('.//p[@class="pois"]/a/text()').getall()  # 熱門景點
        travel_hot = [hot.strip() for hot in travel_hot]
        travel_hot = '、'.join(travel_hot)

        travel_url = li.xpath('.//h3/a/@href').get()  # 目的地詳情頁url
        travel_imgUrl = li.xpath('./p/a/img/@src').get()  # 圖片url
        print(travel_place, travel_people, travel_hot, travel_url, travel_imgUrl, sep=' | ')

        yield travel_place, travel_people, travel_hot, travel_url, travel_imgUrl

def save_data(data_generator):
    with open('窮遊網.csv', mode='a', encoding='utf-8', newline='') as f:
        csv_write = csv.writer(f)
        for data in data_generator:
            lock.acquire()  # 加鎖
            csv_write.writerow(data)
            lock.release()  # 釋放鎖

def main(url):
    html_data = send_request(url)
    parse_result = parse_data(html_data)
    save_data(parse_result)


if __name__ == '__main__':
    # main('https://place.qyer.com/china/citylist-0-0-1')
    with ProcessPoolExecutor(max_workers=13) as executor:
        for page in range(1, 172):
            url = f'https://place.qyer.com/china/citylist-0-0-{page}/'
            executor.submit(main, url)

python爬蟲：爬取窮遊網的地點資料，世界那麼大，我想去看看。

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲：爬取某圖外賣資料有這篇文章就夠了

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲：爬取科技新聞，進而整理，產出資料分析

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲：爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

Python爬蟲：爬取無賬號無限制獲取企查查資訊

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲：爬取某牙直播小姐姐圖片，我的雙手已經按捺不住了

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲：抓取手機APP的傳輸資料

原文 http://my.oschina.net/jhao104/blog/606922 大多數APP裡面返回的是json格式資料，或者一堆加密過的資料。這裡以超級課程表APP為例，抓取超級課程表裡使用者發的話題。

【專業技術】Python爬蟲：抓取手機APP的傳輸資料

1、抓取APP資料包方法詳細可以參考這篇博文：http://my.oschina.net/jhao104/blog/605963

Python爬蟲入門教程：爬取boss直聘招聘資料並做視覺化展示

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲例項——爬取美團美食資料

1.分析美團美食網頁的url引數構成 1）搜尋要點美團美食，地址：北京，搜尋關鍵詞：火鍋

python爬蟲：抓取下載電影檔案，合併ts檔案為完整視訊

目標網站：https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反貪風暴4 對電影進行分析

Python爬蟲之爬取淘女郎照片示例詳解

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

[python][爬蟲]批量爬取【漫畫DB】的漫畫圖片

今天看漫畫的時候感覺用瀏覽器實在不爽，就寫個小程式爬了下來。順便安利一個漫畫軟體MComix，超級好用（Linux限定，Win可以用ComicViewer）

python爬蟲實戰---爬取大眾點評評論

python爬蟲實戰—爬取大眾點評評論（加密字型） 1.首先開啟一個店鋪找到評論

python爬蟲實踐爬取今日頭條街拍圖（參考了python3webspider和github上的程式碼）

import requests from urllib.parse import urlencode from requests import codes import os from hashlib import md5

python例項：爬取caoliu圖片，同時下載到指定的資料夾內

本指令碼主要實現爬取caoliu某圖片板塊，前3頁當天更新的帖子的所有圖片，同時把圖片下載到對應帖子名建立的資料夾中

Python爬蟲：抓取智聯招聘崗位資訊和要求（基礎版）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲：抓取智聯招聘崗位資訊和要求（進階版）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python分析：爬取《靈籠》這部國產動漫彈幕，分析詞雲！看看網友究竟在說啥？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬蟲批量爬取網頁圖片儲存到本地的實現程式碼

其實和爬取普通資料本質一樣，不過我們直接爬取資料會直接返回，爬取圖片需要處理成二進位制資料儲存成圖片格式（.jpg,.png等）的資料文字。