Python爬蟲時翻頁等操作URL不會改變的解決辦法----以攜程評論爬取為例

阿新 • • 發佈：2018-12-18

一、需求：

需要爬取攜程的五四廣場景點主頁的使用者點評資訊。

二、爬蟲時可能遇到的問題：

評論資訊雖然可以在該頁的原始碼中獲取到：

但是存在許多問題，例如：

1、評論翻頁、修改評論排序方式（智慧排序、有用數排序、按時間排序）並不會改變當前頁的URL。

2、使用Fiddler等的抓包工具，雖然能夠找到該網頁用來進行評論資料傳輸的檔案AsynCommentView的URL，但是發現翻頁以及修改評論排序方式同樣不會改變URL。

三、問題分析：

1、觀察景點頁面的原始碼，注意到關鍵程式碼：

這行程式碼直接說明了，該網頁的評論資訊是通過POST服務的形式，向評論資料傳輸檔案AsynCommentView的URL傳送POST請求，然後獲取返回的評論資料。

2、通過Chrome核心瀏覽器的F12工具，切換到network檢視一下傳輸的內容，首先清空內容避免干擾，然後點選翻頁或者切換排序方式，切換到Headers我們可以看到：

傳送的請求資訊無處遁形~

4、那麼問題來了，請求的內容引數該如何設定呢？

（1）order以及pagenow：顧名思義，是排序方式（按時間：1 ，有用數：2，智慧：3）以及當前頁碼。

（2）star、tourist：測試發現使用0.0即可。

（3）poiID、districtId、districtEName、resourceId、resourcetype：無法輕易判斷，但是通過觀察網頁原始碼：

發現原始碼幫了大忙，他會把預設的引數儲存，可以通過爬取這些引數來進行填充。

3、因此可以初步思考爬蟲的解決思路：即使用自動模擬HTTP請求來解決，具體可參考我的另一篇部落格：

三、編寫程式碼：

import re
import urllib.request
import urllib.parse

#模擬瀏覽器
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6726.400 QQBrowser/10.2.2265.400")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)

#設定URL為當前景點頁面並獲取內容
baseUrl="http://you.ctrip.com/sight/Qingdao5/5326.html#ctm_ref=www_hp_bs_lst"
pagedata=urllib.request.urlopen(baseUrl).read().decode("utf-8","ignore")

#爬取頁面中的POST引數資訊並進行處理
poiIDPat='var poiid = "(.*?)"'
districtIdPat='var districtid = "(.*?)"'
districtENamePat='var districtename = "(.*?)"'
resourceIdPat='var resourceid = "(.*?)"'
resourcetypePat='var resourcetype = "(.*?)"'

poiID=int(re.compile(poiIDPat,re.S).findall(pagedata)[0])
districtId=int(re.compile(districtIdPat,re.S).findall(pagedata)[0])
districtEName=re.compile(districtENamePat,re.S).findall(pagedata)[0]
resourceId=int(re.compile(resourceIdPat,re.S).findall(pagedata)[0])
resourcetype=int(re.compile(resourcetypePat,re.S).findall(pagedata)[0])
order=1 #排序方式，此處設定為按時間排序
star=0.0
tourist=0.0

#設定資料傳輸檔案的URL，當Post網址無法輕易找到時，可以使用抓包分析
url="http://you.ctrip.com/destinationsite/TTDSecond/SharedView/AsynCommentView"
comments=[]#儲存所有評論的列表
#以爬取評論前30頁為例
for i in range(1,31):
    #設定Post的值
    mydata=urllib.parse.urlencode({
        "poiID":poiID,
        "districtId":districtId,
        "districtEName":districtEName,
        "pagenow":i,
        "order":order,
        "star":star,
        "tourist":tourist,
        "resourceId":resourceId,
        "resourcetype":resourcetype
    }).encode("utf-8")
    #傳送POST請求進行爬取
    req=urllib.request.Request(url,mydata)
    commentdata=urllib.request.urlopen(req).read().decode("utf-8","ignore")
    commentPat='<span class="heightbox">(.*?)</span>'
    #獲得當前頁評論並存儲
    comment=re.compile(commentPat,re.S).findall(pagedata)
    comments.extend(comment)
    
#寫入txt檔案
file_handle=open('E:/comment.txt',mode='w')
for j in range(0,len(comments)):
    text = "評論內容："+comments[j] + '\n\n'  
    file_handle.write(text)
file_handle.close()

四、爬取結果：

Python爬蟲時翻頁等操作URL不會改變的解決辦法----以攜程評論爬取為例

一、需求：需要爬取攜程的五四廣場景點主頁的使用者點評資訊。二、爬蟲時可能遇到的問題：評論資訊雖然可以在該頁的原始碼中獲取到：但是存在許多問題，例如： 1、評論翻頁、修改評論排序方式（智慧排序、有用數排序、按時間排序）並不會改變當前頁的UR

Python安裝模組（numpy等）問題的兩種解決辦法——常規方法和Anaconda

一.常見模組安裝問題 Python是現在最頂尖的幾個研究方向（人工智慧、機器學習等）的主流程式語言，博主因為要參加競賽也需要學習Python（主要是科學計算方面），現階段會用到的模組有numpy、scipy、matplotlib及scikit-learn（在f

安裝python模組時出現錯誤：UnicodeDecodeError: 'utf-8' codec ...的解決辦法

找到路徑：d:\python\lib\site-packages\pip\compat__init__.py 用編輯器開啟，將裡面的utf-8和utf_8全部替換為gbk 這是因為Windows

vue 打包後，字尾名為.woff等字型問題不能用解決辦法

1、開啟 build / webpack.prod.conf.js ，找到 module: { 　　rules: utils.styleLoaders({ 　　　　sourceMap: config.build.productionSourceMap, 　　　　extract: true, 　　

@PathVariable出現點號"."時導致路徑引數截斷獲取不全的解決辦法

1、問題 SpringMVC專案中通過下面的ＵＲＬ進行GET請求。當version有多個小數點的時候。如version為1.0.1008。後臺通過@PathVariable來獲取version等於1.0。會丟失部分資料。 URL: http:

python引入PIL做驗證碼,發現字型不支援的解決辦法

from PIL import Image, ImageDraw, ImageFont, ImageFilter import random # 隨機字母: def rndChar():

【Python】獲取翻頁之後的各頁面中的屬性值。

utf-8 通過 .com lol list __name__ n) 圖片 lis 如何獲取翻頁之後的頁面中的html標簽中的屬性值？ 1 # coding=utf-8 2 from selenium import webdriver 3 if __name_

（python爬蟲時）如何知道是否代理ip偽裝成功

通過請求 http://httpbin.org/get 獲得類似以下資訊： { "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,applicat

python 爬蟲時l兩種情況下設定ip代理proxy的方法（requests,selenium(chrome,phantomjs）

requests庫時，設定代理的方法： import requests proxy = '127.0.0.1:9743' proxies = { 'http': 'http://' + proxy, 'https': 'https://' + proxy, } try:

python爬蟲時圖形驗證碼識別( tesserocr)

window環境下：第一步：安裝tesseract：教程如下：https://www.cnblogs.com/jianqingwang/p/6978724.html 第二步：安裝 tesserocr ：到這裡下載whl版本 &

Python 日期的加減等操作

From：https://www.cnblogs.com/vampirejt/p/4159267.html 1. 日期輸出格式化所有日期、時間的api都在datetime模組內。 1. datetime => string now = da

python爬蟲時，判斷IP代理是否有效的解決方法

1、不停的請求測試，可以發現網路IP在不斷更新 import requests import random # 該網站會返回你請求網站時的IP地址資訊 url = 'http://icanhazip.com' #首先我們在xicidaili.com中獲取一些ip代理資訊，放入列表中

python學習——Python日期的加減等操作

1. 日期輸出格式化所有日期、時間的api都在datetime模組內。 1. datetime => string now = datetime.datetime.now() now.strftime('%Y-%m-%d %H:%M:%S') #輸出2012-03-05 16:26:23.8701

python爬蟲中對含中文的url處理

在練習urllib操作中，遇到了url中含有中文字元的問題。比如http://dotamax.com/，看下原始碼的話，上方的搜尋框的name=p，輸入內容點選搜尋以後，通過GET方法進行傳遞，比如我們搜尋”意“，url變為http://dotamax.com/search

python selenium 執行翻頁

1.直接定位到‘下一頁’標籤並點選 a = driver.find_element_by_link_text(‘下一頁’) a.click() 2.一步步定位到所點選的標籤(本質上和1是一樣的) num = driver.find_element_b

windows server 2008 R2 SP1 安裝SQL Server 2008 R2時提示 "此操作系統不支持此版本的 SQL Server 版本"

企業版支持 span ask 原因提示 64位福利版本 windows server 2008 R2 SP1 安裝SQL Server 2008 R2時提示 "此操作系統不支持此版本的 SQL Server 版本" 原因：安裝的時候輸入了標準版的key ,

Python爬蟲開發（四）：動態載入頁面的解決方案與爬蟲代理

0×00 前言如果讀者讀過我前面的關於爬蟲的文章，應該大概都清楚我們現在可以對一個靜態的web頁面”為所欲為“了，但是技術的發展總是沒有止境的，僅僅是這樣對靜態頁面處理遠遠不夠，要知道現在很多的web頁面有意無意為了防止靜態爬蟲使用ajax技術動態載入頁面，這就導致了在面對這些網站的時候，我們

利用C#開發web應用程式時，對登錄檔進行操作提示沒有許可權的解決辦法

因為公司專案需要對web程式新增一套限制客戶惡意傳播的方案。沒辦法，東西放在客戶的伺服器或者電腦裡面。鑑於本人菜鳥一個，也就能想到利用兩種方案,具體的實現的方式，將會在之後的博文中寫出。我寫這篇文章

svn 更新、上傳等操作找不到臨時目錄

Error：Can’t find temporary directory:internal error 錯誤今天檢出程式碼的時候，svn客戶端報錯： Error：Can't find temporary directory:internal erro

python中正則匹配字符配置單詞邊界不生效的解決辦法

re python duoceshi #-*-coding:utf-8-*-import rename="duoceshi"p= re.compile(‘\bduoceshi\b‘)f = p.search(name)if f: print f.group()################

Python爬蟲時翻頁等操作URL不會改變的解決辦法----以攜程評論爬取為例

相關推薦