python抓取去哪網當天的酒店資訊
阿新 • • 發佈:2018-12-12
searchHotel
python抓取去哪網當天的酒店資訊
. 主要內容
環境準備
selenium 使用
資料抓取
程式碼地址
環境準備
安裝selenium
sudo pip install selenium
selenium2.x 呼叫高版本瀏覽器會出現不相容問題,呼叫低版本瀏覽器正常 selenium3.x 呼叫瀏覽器必須下載一個類似不定的檔案,比如firefox的geckodriver,chrome的chromedriver 各個瀏覽器的補丁下載地址
安裝 BeautifulSoup
sudo pip install BeautifulSoup
selenium 使用
注意事項:
from selenium import webdriver
dr = webdriver.Firefox()
如果執行報錯,提示geckodriver(或者其他瀏覽器對應的補丁)必須在‘PATH’,新增對應的路徑到環境變數中,重啟,如果還報錯,改用下列寫法
dr = webdriver.Firefox(execute_path=r"/Users/software/chromedriver.exe"
資料抓取
- 搜尋功能,在搜尋框中輸入時間地點,點選搜尋按鈕
- 獲取一頁完整資料。由於去哪網一個頁面資料分為兩次載入,第一次載入15條,這時需要將頁面拉到底部,完成第二次資料載入
- 獲取一頁完整且經過渲染的HTML文件,使用BeautifulSoup將其中的酒店資訊提取出來進行儲存
- 解析完成,點選下一頁,繼續抽取資料