1. 程式人生 > >Booking網站爬蟲,獲取酒店評論內容(Python)

Booking網站爬蟲,獲取酒店評論內容(Python)

1、爬蟲目標

booking旅遊網站香港地區酒店的評論內容

爬蟲內容

2、爬蟲步驟

(1)gethotelurl.py

hotel_revelant_informs.txt

(2)booking.py

(注:該程式碼爬的是英文評論,如若想要中文評論內容,按照註釋中的修改90、91行即可)
從hotel_revelant_informs.txt中讀取相應內容(英文評論落地頁、英文檔名、英文評論數),然後爬取對應的評論內容,儲存為以‘數字’+‘英文檔名’命名的txt文件中。

檔名

(3)merge.py

將爬出來的200多家酒店的英文評論合併成一個total_en.txt檔案。(要將中文評論合併成一個只需將相關的en改成zn即可)

3、注意事項

gethotelurl.py和booking.py中
headers = {‘User-Agent’: ‘換成自己的User—Agent(詳見使用說明)’}
User-Agent來源(以Google Chorme瀏覽器為例):
(1)進入網頁,滑鼠右鍵檢查

滑鼠右鍵檢查

(2)找到User-Agent

找到User-Agent

注:若第3步沒出現,隨便點選網站內任意連結即可

4、程式碼連結