python爬蟲攜程上海

阿新 • • 發佈：2018-12-22

年關將至，不想磕鹽。正好有個美麗的小仙女要來上海玩。閒來無事，先用爬蟲踩踩點。畢竟人懶，不想實地考察。

先看遊記，注意到網頁連結為http://you.ctrip.com/travels/shanghai2.html 我就很好奇第一頁就是shanghai2？？？那shanghai1 是啥。懷著好奇的心情點進去一看，http://you.ctrip.com/travels/shanghai1.html

(⊙o⊙)…居然是北京遊記，真是驚了個呆。為攜程網的命名方式點贊，好了題外話結束。

翻到第二頁，http://you.ctrip.com/travels/shanghai2/t3-p2.html
可以大膽地揣測p是指第幾頁，那麼-p1,-p2,-p3…是我們將要爬取的網頁。先爬個20頁吧

urls=['http://you.ctrip.com/travels/shanghai2/t3-p'+str(i)+'.html' for i in range(1,21)]

攜程網有最基礎的反爬蟲機制，那我們就套件外套，加個headers

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
res=requests.get(url,headers=headers)

bs4 解析獲得每篇遊記的地址，以第一頁為例

tmp=soup.find_all('a',attrs={'class':'journal-item cf','target':'_blank'})
for t in tmp:
     detail_url.append(t.get('href'))

['/travels/shanghai2/3333236.html',
 '/travels/shanghai2/3534134.html',
 '/travels/shanghai2/3635663.html',
 '/travels/shanghai2/3742279.html',
 '/travels/tibet100003/1755676.html',
 '/travels/shanghai2/1560853.html',
 '/travels/shanghai2/1816039.html',
 '/travels/shanghai2/1578243.html',
 '/travels/shanghai2/1885378.html',
 '/travels/huangshan19/2189034.html']

貌似混進來了很了不得的東西，攜程網還是個很神奇的網站，真的包容一切。加條判斷‘shanghai’

if 'shanghai' in t.get('href'):detail_url.append(t.get('href'))

接下來提取正文中的中文字
注意到文字在p標籤中，xpath路徑為

/html/body/div[3]/div[4]/div[1]/div[1]/div[2]/p[2]/text()
/html/body/div[3]/div[4]/div[1]/div[1]/div[2]/p[3]/text()

接下來應該是p[4],p[5]… 這樣就把他們安排得明明白白，一家人排排坐。但是lxml.etree解析xpath一直不對，這就尷尬了，博主水平有限啊。還是老老實實迴歸老本行bs4. 發現正文內容在class:ctd_content內然後判斷是否是中文字，是的話就寫入

def isContainChinese(s):
    for c in s:
        if ('\u4e00' <= c <= '\u9fa5'):
            return True
    return False
def get_detail_content(url):
    res=requests.get('http://you.ctrip.com'+url,headers=headers)
    soup = BeautifulSoup(res.content,'html.parser')
    tmp=soup.find_all('div',attrs={'class':'ctd_content'})
    s=str(tmp[0])
    contain=''
    for c in s:
        if isContainChinese(c):
            contain+=c 
    return contain

將結果儲存到txt文件中
最後用多執行緒加速（算了一共就20也貌似不用多執行緒）
完整程式碼如下

import requests
from  bs4 import BeautifulSoup
from lxml import etree
import os
urls=['http://you.ctrip.com/travels/shanghai2/t3-p'+str(i)+'.html' for i in range(1,21)]
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
path=os.getcwd()
def isContainChinese(s):
    for c in s:
        if ('\u4e00' <= c <= '\u9fa5'):
            return True
    return False
def get_detail_url(urls):
    detail_url=[]
    for url in urls:
        res=requests.get(url,headers=headers)
        soup = BeautifulSoup(res.content,'html.parser')
        tmp=soup.find_all('a',attrs={'class':'journal-item cf','target':'_blank'})
        for t in tmp:
            if 'shanghai' in t.get('href'):detail_url.append(t.get('href'))
    return detail_url

def get_detail_content(url):
    print(url)
    res=requests.get('http://you.ctrip.com'+url,headers=headers)
    soup = BeautifulSoup(res.content,'html.parser')
    tmp=soup.find_all('div',attrs={'class':'ctd_content'})
    s=str(tmp[0])
    contain=''
    for c in s:
        if isContainChinese(c):
            contain+=c
    return contain

detail_url=get_detail_url(urls)
txt=''
for url in detail_url:
    txt+=get_detail_content(url)
with open(path+'/shanghai.txt','a') as f:
    f.write(txt)

這樣我們就得到了遊記正文的內容（好像忘記爬圖片，算了有機會再更吧）。資料有了，接下來開始處理資料，從簡單的開始，先來做個詞頻統計吧。

jieba中文分詞，自己設定停用詞（好多啊，好煩啊）

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.image as mpimg
import matplotlib.pyplot as plt
from os import path
import jieba
from scipy.misc import imread
d = path.dirname(__file__)
ciyun1=''
lists=''
remove=['點選','檢視','原圖','資訊','相關','一個','可以','因為','這個','一下','這裡','很多',
        '我們','沒有','自己','還是','還有','就是','最後','覺得','開始','現在','裡面','看到',
        '而且','一些','一種','一樣','所以','如果','不過','時候','大家','附近','這樣']
with open(path.join(d,"shanghai.txt"),'r') as f1:
	lists = f1.read()
word1=jieba.cut(lists)
ciyun1 = ",".join(word1)
text=ciyun1

alice_coloring = imread(path.join(d, "氣球.png"))

wc = WordCloud(background_color="white", #背景顏色max_words=2000,# 詞雲顯示的最大詞數
mask=alice_coloring,#設定背景圖片
font_path='simkai.ttf',
stopwords=remove,
max_font_size=40, #字型最大值
random_state=42)
# 生成詞雲, 可以用generate輸入全部文字(中文不好分詞),也可以我們計算好詞頻後使用generate_from_frequencies函式
wc.generate(text)
# wc.generate_from_frequencies(txt_freq)
# txt_freq例子為[('詞a', 100),('詞b', 90),('詞c', 80)]
# 從背景圖片生成顏色值
image_colors = ImageColorGenerator(alice_coloring)

# 以下程式碼顯示圖片
plt.imshow(wc)
plt.axis("off")
# 繪製詞雲
plt.figure()
# recolor wordcloud and show
# we could also give color_func=image_colors directly in the constructor
plt.imshow(wc.recolor(color_func=image_colors))
plt.axis("off")
# 繪製背景圖片為顏色的圖片
plt.figure()
plt.imshow(alice_coloring, cmap=plt.cm.gray)
plt.axis("off")
#plt.show()
# 儲存圖片
wc.to_file(path.join(d, "上海.png"))

今天先到這裡了，下次再更，想爬什麼東西底下留言。

python爬蟲攜程上海

年關將至，不想磕鹽。正好有個美麗的小仙女要來上海玩。閒來無事，先用爬蟲踩踩點。畢竟人懶，不想實地考察。先看遊記，注意到網頁連結為http://you.ctrip.com/travels/shanghai2.html 我就很好奇第一頁就是shanghai2？？？那shanghai1 是啥

python爬蟲-攜程-eleven引數

攜程-eleven分析一、eleven的位置通過對旁邊棧的分析，它是在另一個js檔案中呼叫的。那個js檔案是一個自呼叫的函式，所以我們可以直接copy下來，用瀏覽器執行看看執行執行是會報錯的,undefind沒有call屬性經過除錯發現，報錯這裡是想呼叫window下面的某一個函式，也就是這個

python爬蟲練習--爬上海法院開庭公告資訊

本次練習的物件是上海法院開庭公告資訊。資料來源如下：該網站是上海法院的官方網站，網站內會公示未來已確定的開庭資訊。如上圖所示，網站顯示共有資料30528條。這些資料就是本次爬蟲的目標。（一）分析頁面1. 開啟google瀏覽器開發者工具，點選頁面下一頁，觀察網路請求可以發現，

爬蟲-攜程酒店資訊抓取降妖除魔（下）

#這篇主要是講抓取酒店頁面list的經歷，也有很多坑，反爬，價格資料放在其他位置多分析才能事半功倍 1.通過分析酒店相關資訊list也是ajax載入，存放在json資料中，價格也在同一個json中但是放在另外的位置通過酒店id對應 2.下來就是主要提取自己

python攜程爬蟲之逆向混淆js

前言那些年攜程工程師在程式碼裡下的毒-反爬與反反爬的奇技淫巧知乎上面的專欄，寫出了逆向找到攜程的Eleven引數來偽裝瀏覽器傳送ajax，獲取攜程的酒店房型列表。然而文章並沒有給出全部的思路，我們獲取到的頁面內容內容是醬紫的：所以沒辦法，只能自己擼出

Python爬蟲時翻頁等操作URL不會改變的解決辦法----以攜程評論爬取為例

一、需求：需要爬取攜程的五四廣場景點主頁的使用者點評資訊。二、爬蟲時可能遇到的問題：評論資訊雖然可以在該頁的原始碼中獲取到：但是存在許多問題，例如： 1、評論翻頁、修改評論排序方式（智慧排序、有用數排序、按時間排序）並不會改變當前頁的UR

Python爬蟲抓取攜程網機票資訊併發郵件通知

背景：由於要買機票，所以一直進行搜尋，爬蟲可以幫我解決這個問題；解釋的超級詳細。於是通過這一過程，基本瞭解了一些；查詢上海到西安 4.29～05.02的機票： #coding:utf-8 import urllib2 from

Python求解啤酒問題（攜程2016筆試題）

sep 走了參考資料很難 bucket static turn and item 問題描述：一位酒商共有5桶葡萄酒和1桶啤酒，6個桶的容量分別為30升、32升、36升、38升、40升和62升，並且只賣整桶酒，不零賣。第一位顧客買走了2整桶葡萄酒，第二位顧客買走的葡萄酒是

Python爬蟲(十八)_多線程糗事百科案例

.json afa 安全 rip down 退出交互 encode tar 多線程糗事百科案例案例要求參考上一個糗事百科單進程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(隊列對象) Queue是pyth

Python爬蟲進階六之多進程的用法

maxsize clas 生產依然 queue consumer mac 裏的 filesize 前言在上一節中介紹了thread多線程庫。python中的多線程其實並不是真正的多線程，並不能做到充分利用多核CPU資源。如果想要充分利用，在python中大部分情況需要

python爬蟲之線程池和進程池

偏見通信內存空間正常 io操作爬取網站總結性能一、需求　　最近準備爬取某電商網站的數據，先不考慮代理、分布式，先說效率問題（當然你要是請求的太快就會被封掉，親測，400個請求過去，服務器直接拒絕連接，心碎），步入正題。一般情況下小白的我們第一個想到的是fo

Python爬蟲之多線程下載豆瓣Top250電影圖片

process current ocs code roc 輸出 wait div 允許爬蟲項目介紹 ??本次爬蟲項目將爬取豆瓣Top250電影的圖片，其網址為：https://movie.douban.com/top250，具體頁面如下圖所示： ??本次爬蟲項目將分別

安裝python爬蟲scrapy踩過的那些坑和編程外的思考

lxml alt info nss feature cati span xslt .so 　　這些天應朋友的要求抓取某個論壇帖子的信息，網上搜索了一下開源的爬蟲資料，看了許多對於開源爬蟲的比較發現開源爬蟲scrapy比較好用。但是以前一直用的java和php，對pyth

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

《Python》線程池、攜程

以及單純位置實參 color 本質關鍵字用戶有一個其中一、線程池（concurrent.futures模塊） #1 介紹 concurrent.futures模塊提供了高度封裝的異步調用接口 ThreadPoolExecutor：線程池，提供異步調用 Pro

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

nbsp net article 智能 tail 攜程網 .net 網絡爬蟲準備工作轉:https://www.toutiao.com/i6304492725462893058/ https://blog.csdn.net/hjkl950217/article/det

攜程智聯等網站百分之60%的訪問量都是爬蟲,對此我們應該怎麽辦

ace color min pub div 就是簡單服務器 sys 前言爬蟲和反爬蟲日益成為每家公司的標配系統。爬蟲在情報獲取、虛假流量、動態定價、惡意攻擊、薅羊毛等方面都能起到很關鍵的作用，所以每家公司都或多或少的需要開發一些爬蟲程序，業界在這方面的成熟的方案

Python爬蟲9-----實例-抓取上海高級人民法院網開庭公告數據

web bsp 實例上海取數 tro arc http 融合通過前面的文章已經學習了基本的爬蟲知識，通過這個例子進行一下練習，畢竟前面文章的知識點只是一個一個單獨的散知識點，需要通過實際的例子進行融合。分析網站其實爬蟲最重要的是前面的分析網站，只有對要爬取

Python爬蟲之queue線程安全實戰

xpath nbsp lose list 異步 thread 取圖 producer 是否為空 1.普通下載 import requests import os import re from lxml import etree from urllib import re

python爬蟲——多執行緒+協程（threading+gevent）

以下摘自這篇文章：https://blog.csdn.net/qq_23926575/article/details/76375337 在爬蟲中廣泛運用的多執行緒+協程的解決方案，親測可提高效率至少十倍以上。本文既然提到了執行緒和協程，我覺得有必要在此對程序、執行緒、協程做一個簡單的對

python爬蟲 攜程上海

先看遊記，注意到網頁連結為http://you.ctrip.com/travels/shanghai2.html 我就很好奇第一頁就是shanghai2？？？那shanghai1 是啥。懷著好奇的心情點進去一看，http://you.ctrip.com/travels/shanghai1.html

(⊙o⊙)…居然是北京遊記，真是驚了個呆。為攜程網的命名方式點贊，好了題外話結束。

貌似混進來了很了不得的東西，攜程網還是個很神奇的網站，真的包容一切。加條判斷‘shanghai’

jieba中文分詞，自己設定停用詞（好多啊，好煩啊）

今天先到這裡了，下次再更，想爬什麼東西底下留言。

相關推薦

python爬蟲攜程上海