爬蟲-攜程酒店資訊抓取降妖除魔（下）

阿新 • • 發佈：2019-02-06

#這篇主要是講抓取酒店頁面list的經歷，也有很多坑，反爬，價格資料放在其他位置
多分析才能事半功倍

1.通過分析酒店相關資訊list也是ajax載入，存放在json資料中，價格也在同一個json中但是放在另外的位置通過酒店id對應

在這裡插入圖片描述

2.下來就是主要提取自己需要的資訊，然後儲存就好，這邊存放csv和mysql資料庫，程式碼中有兩個註釋知識點著重留意下，然後就是儲存到mysql是通過pymysql建立，navicat建立表，記得表名和列名需要與插入資料一一對應

import requests
import json
import re
import csv
import demjson
import pymysql

#連線寫入提交
conn = pymysql.Connect(host='localhost', port=3306, user='root', passwd='***', db='jiudian')
curor = conn.cursor()
lists=[]
dicts={}
ss=0
for i in range(1,20):
    url="http://hotels.ctrip.com/Domestic/Tool/AjaxHotelList.aspx"
    headers={

        "Connection": "keep-alive",
        "origin":"http://hotels.ctrip.com",
        "Host": "hotels.ctrip.com",
        "referer": "http://hotels.ctrip.com/hotel/beijing1",
        "user-agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36",

    }
    data={
    "StartTime":"2018-10-09",
    "DepTime": "2018-10-10",
    "RoomGuestCount": "1,1,0",
    "cityId":1,
    "cityPY":" beijing",
    "cityCode":"010",
    "cityLat": 39.9105329229,
    "cityLng":116.413784021,
    "page":i,
    }

    html=requests.post(url,headers=headers,data=data)
    #ValueError: Invalid \escape: line 1 column 35442 (char 35441)問題在於編碼中是\xa0之類的，當遇到有些 不用轉義的\http之類的，則會出現以上錯誤。解決方案如下：
    regex = re.compile(r'\\(?![/u"])')
    fixed = regex.sub(r"\\\\", html.text)

    aa=json.loads(fixed)

    for n in range(0,25):
        dianming = aa["hotelPositionJSON"][n]["name"]

        #python eval函式，將列表樣式的字串轉化為列表
        jiage=eval(aa["HotelMaiDianData"]["value"]["htllist"])[n]["amount"]
        xinji=aa["hotelPositionJSON"][n]["star"][-2:]
        dangci=aa["hotelPositionJSON"][n]["stardesc"]
        pingfen=aa["hotelPositionJSON"][n]["score"]
        lianjie="http://hotels.ctrip.com"+aa["hotelPositionJSON"][n]["url"]
        ss += 1
        lists.append([ss, dianming,xinji,dangci,pingfen,jiage + "元",lianjie])

        # lists.append([s,"酒店名:"+name,"星級:"+xinji,"檔次:"+dangci,"評分:"+pingfen,"價格:"+jiage+"元"])
        dicts[ss]=["酒店名:"+dianming,"星級:"+xinji,"檔次:"+dangci,"評分:"+pingfen,"價格:"+jiage+"元","連結:"+lianjie]
        print("正在檢索中"+str(ss))
        hot = "insert into jdlist(jd_num,jd_name,jd_star,jd_good,jd_fen,jd_jiage,jd_link) values('%s','%s','%s','%s','%s','%s','%s')" % (ss,dianming,xinji,dangci,pingfen,jiage,lianjie)
        curor.execute(hot)
        conn.commit()
        # self.conn.close()
        # mm=re.findall('.*?"amount":"(.*?)"}',jiage)
# print(lists)
with open("bjjiudian.csv", "w", encoding="utf-8",newline="") as f:
    k = csv.writer(f, dialect="excel")
    k.writerow(["數量", "酒店名", "星級", "檔次", "評分", "價格","連結"])

    for list in lists:
        k.writerow(list)
print(lists)
print(dicts)

在這裡插入圖片描述

爬蟲-攜程酒店資訊抓取降妖除魔（下）

#這篇主要是講抓取酒店頁面list的經歷，也有很多坑，反爬，價格資料放在其他位置多分析才能事半功倍 1.通過分析酒店相關資訊list也是ajax載入，存放在json資料中，價格也在同一個json中但是放在另外的位置通過酒店id對應 2.下來就是主要提取自己

利用selenium爬取攜程酒店資訊

上節部落格我們利用requests請求庫，正則表示式來提取資訊（連結https://mp.csdn.net/postedit/81865681），提到過使用selenium也可以抓取酒店資訊，在這裡利用selenium模組優點是不需要資料處理過濾，只需要處理異常，（實際上也是一樣的效果）但是對於

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

使用scrapy框架進行抓取伯樂線上所有文章（一）

這是跟著相關視訊學習進行的程式碼，（一）學習思路的程式碼在整個完整程式碼中存在一部分，如果看到這些內容或思路有不懂的給我下面部落格留言。完整程式碼github地址：https://github.com/spider-liu/jobbole-，主要是作為學習交流之用。一、scrapy框架簡介

強烈推薦（原創親測）！！！Fiddler抓取https設定詳解（圖文）

本文主要說明了自己在設定fiddler抓取https過程中所遇到的問題及解決步驟，特別是fiddler在設定證書的環節遇到的各種奇葩問題，特此分享！宣告：本文為原創文章，轉載請註明來源：https://www.cnblogs.com/joshua317/p/86709

python3.6爬蟲案例：爬取某網站所有PPT（下）。

上篇部落格：python3.6爬蟲案例：爬取某網站所有PPT（上）給大家介紹了爬取（http://www.1ppt.com/）網站中的ppt檔案，爬下來的檔案如下：所以，我們就要考慮將其名稱修改為其在網頁中顯示的名字，並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的

攜程Apollo統一配置中心的搭建和使用（java）

一.Apollo配置中心介紹 1、What is Apollo 1.1 Apollo簡介 Apollo（阿波羅）是攜程框架部門研發的開源配置管理中心，能夠集中化管理應用不同環境、不同叢集的配置，配置修改後能夠實時推送到應用端，並且具備規範的許可權、流程治理等特性。 A

利用requests+分析ajax+mogodb爬取並存儲攜程酒店資料

以前就利用selenium爬取協程酒店資訊，但是我們知道利用selenium抓取資訊有個缺點就是效率不高，於是這幾天重新開啟網頁，從基本的網頁和原始碼中尋找一些值得利用的資料。話不多說，我們直接說抓取攜程酒店資料的思路，宣告：本節只做爬蟲交流技術所用，不得用於商業用途，如有侵犯他人權利，聯

python爬取攜程酒店資料

首先開啟攜程所有北京的酒店http://hotels.ctrip.com/hotel/beijing1 簡簡單單，原始碼中包含我們需要的酒店資料，你以為這樣就結束了？攜程的這些資料這麼廉價地就給我們得到了？事實並不是如此，當我們點選第二頁的時候出現問題：雖然酒店的資料改變了，但是我們發現

爬蟲技術 -- 進階學習（十）網易新聞頁面資訊抓取（htmlagilitypack搭配scrapysharp）

最近在弄網頁爬蟲這方面的，上網看到關於htmlagilitypack搭配scrapysharp的文章，於是決定試一試~ 於是到https://www.nuget.org/packages/ScrapySharp去看看，看到這句下載提示：To install ScrapySharp, run the fo

Java資料爬取——爬取攜程酒店資料（二）

1.首先思考怎樣根據地域獲取地域酒店資訊，那麼我們看一下攜程上是怎樣獲得的。還是開啟http://hotels.ctrip.com/domestic-city-hotel.html 這個地址，隨便點選一個地區進去（這裡我選取澳門作為示例），點選第二頁資料

python——爬蟲實現網頁資訊抓取

首先實現關於網頁解析、讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re 我們可以嘗試一下用readline方法讀某個網站，比如說百度 def test(): f=urllib.urlopen('http:/

python2.7爬蟲實戰（房地產資訊抓取）

import sys reload(sys) sys.setdefaultencoding( "utf-8" ) import MySQLdb import urllib2 import re from bs4 import BeautifulSoup #可改成函式這裡就懶的寫了 for i in ra

使用requests、re、BeautifulSoup、線程池爬取攜程酒店信息並保存到Excel中

備案 info imp lis sub host write count star import requests import json import re import csv import threadpool import time, random

爬蟲原理與數據抓取-----（了解）通用爬蟲和聚焦爬蟲

網頁特殊 mon 相關百度 engine links 標準數據抓取通用爬蟲和聚焦爬蟲根據使用場景，網絡爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網絡爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將互聯

爬蟲原理與數據抓取----- Requests模塊

頭部技術 error 存在 python-re 繼承 .cn clas enter Requests: 讓 HTTP 服務人類雖然Python的標準庫中 urllib2 模塊已經包含了平常我們使用的大多數功能，但是它的 API 使用起來讓人感覺不太好，而 Request

入門須知之網路爬蟲的基本流程及抓取策略

大資料時代下，資料採集推動著資料分析，資料分析推動發展。但是在這個過程中會出現很多問題。拿最簡單最基礎的爬蟲採集資料為例，過程中就會面臨，IP被封，爬取受限、違法操作等多種問題，所以在爬去資料之前，一定要了解好預爬網站是否涉及違法操作，找到合適的代理IP訪問網站等一系列問題。掌握爬蟲技術也成為現在技術流的

入門須知之網絡爬蟲的基本流程及抓取策略

可靠入門評價大小軟件 url 一個好用表示大數據時代下，數據采集推動著數據分析，數據分析推動發展。但是在這個過程中會出現很多問題。拿最簡單最基礎的爬蟲采集數據為例，過程中就會面臨，IP被封，爬取受限、違法操作等多種問題，所以在爬去數據之前，一定要了解好預爬網站

基於類的Python多求職網站資訊抓取！

在日常中一個經常的需求是將不同來源的資訊彙總，比如不同網站的求職資訊。一般的架構是針對一個網站寫一個爬蟲，因為不同的網站的網頁結構都不同，所以解析的方式甚至網站請求的方式也不同。如果全部寫在一個模組中會有一些混亂。但是一個比較好的克服的方法是採用類的結構來進行編寫，因為類的擴充套件性比較好，可

天眼查pc端公司資訊抓取

本篇查詢的是人工智慧前5頁相關公司的資訊： #主要是異常處理和反爬處理 1.異常處理就是有的公司不是公開的資料沒有所以需要判斷，不然程式會出錯 2.反爬頁面瀏覽多了會需要登入，這邊用cookie處理 import requests from lxml import etree

爬蟲-攜程酒店資訊抓取降妖除魔（下）

相關推薦