python爬蟲——美團美食店鋪資訊

阿新 • • 發佈：2018-12-31

寫在前面

本篇文章主要介紹美團美食頁面爬取（web版）

整體思路

通過分析，我們發現美團美食的資料是通過ajax請求來的。
美團美食資料

所以接下來，我們只需要請求這個介面就行了。分析下這個介面的request-header。發現有一點複雜欸（~~別慌，馬上告訴你答案~~）

美團美食請求

說一下圖片中我標記的地方

url 欄裡面的地址可以在城市切換頁面爬取到（~~這個很簡單~~）
主要是token是加密的
- token是先用的zlib加密，然後再base64加密（通過看加密字元型別和字元長度可以大概推斷是哪種加密），當然，解密也就是反著來啦。對了，token解密后里面還有個sign
  
  引數，也是用的同樣的加密方式。

我把token拿出來大概做個示範，你一看就懂了
美團美食token解密

拿到解密後的token,整個ajax請求在你面前可以算是透明的了，接下來就是自己造token然後請求api拿到商家資訊了

程式碼參考

下面附上我寫的程式碼(防反爬還沒怎麼寫，但用上隨機ua頭和代理應該還行)

from requests import RequestException
from fake_useragent import UserAgent
from lxml.html import etree
import base64, zlib, json
import 
 requests
from urllib import parse
import time

class Spider(object):

    def __init__(self):
        self.headers = {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language' 
: 'zh-CN,zh;q=0.9',
            'Cache-Control': 'max-age=0',
            'Proxy-Connection': 'keep-alive',
            'Upgrade-Insecure-Requests': '1',
        }

    # 請求城市列表
    def get_cities(self):
        self.headers['User-Agent'] = UserAgent().random # 隨機請求頭
        self.headers['Host'] = 'www.meituan.com'
        self.headers['Referer'] = 'https://www.meituan.com/changecity/'
        try:
            response = requests.get('https://www.meituan.com/changecity/', headers=self.headers)
            if response.status_code == 200:
                return self.parse_cities(response.text)
        except RequestException as e:
            pass


    # 解析城市列表
    def parse_cities(self, html):
        html = etree.HTML(html)
        cities = html.xpath('//div[@class="alphabet-city-area"]//a')
        for city in cities:
            self.get_meishi('http:'+city.xpath('./@href')[0]+'/meishi/' ,city.xpath('./text()')[0])


    # 構造token
    def get_token(self, url, city, page):
        sign = '"areaId=0&cateId=0&cityName={}&dinnerCountAttrId=&optimusCode=1' \
               '&originUrl={}&page={}&partner=126&platform=1&riskLevel=1&sort=' \
               '&userId=&uuid=5bb9712c812a4ee18eb2.1544868815.1.0.0"'.format(
                city, url, page)
        token = {
            "rId": 100900,
            "ver": "1.0.6",
            "ts": int(time.time()*1000),
            "cts": int(time.time()*1000)+100,
            "brVD": [290, 667],
            "brR": [[1920, 1080], [1920, 1040], 24, 24],
            "bI": ["{}".format(url), ""],
            "mT": ["255,230"],
            "kT": [],
            "aT": [],
            "tT": [],
            "aM": '',
            "sign": str(base64.b64encode(zlib.compress(bytes(sign, encoding='utf8'))), encoding='utf8')
        }
        return str(base64.b64encode(zlib.compress(bytes(str(token).replace(' ','').replace("'",'"'), encoding='utf8'))), encoding='utf8')


    def get_meishi(self, url, city):
        for page in range(1, 33):
            self.headers['User-Agent'] = UserAgent().random
            requests_url = '{}api/poi/getPoiList?cityName={}&cateId=0&areaId=0&sort=&dinnerCountAttrId=&page={}&userId=' \
                           '&uuid=5bb9712c812a4ee18eb2.1544868815.1.0.0&platform=1&partner=126&originUrl={}&riskLevel=1' \
                           '&optimusCode=1&_token={}'.format(url, parse.quote(city), page, parse.quote(url+'pn{}/'.format(page)), parse.quote(self.get_token(url, city, page)))
            print(requests_url)
            try:
                response = requests.get(requests_url, headers=self.headers)
                if response.status_code == 200:
                    self.parse_meishi(response.text)
            except RequestException as e:
                pass


    def parse_meishi(self, html):
        try:
            result = json.loads(html)
            if result:
                print(result)
        except:
            pass


    def run(self):
        self.get_cities()


if __name__ == '__main__':
    Spider().run()

python爬蟲——美團美食店鋪資訊

寫在前面本篇文章主要介紹美團美食頁面爬取（web版）整體思路通過分析，我們發現美團美食的資料是通過ajax請求來的。所以接下來，我們只需要請求這個介面就行了。分析下這個介面的request-header。發現有一點複雜欸（別慌，馬上告訴你答案）

實戰 Python 網路爬蟲：美團美食商家資訊和使用者評論

實戰 Python 網路爬蟲美團美食商家資訊和使用者評論作者簡介：Hyx，多年系統研發經驗，主要

分析並爬取美團美食資訊的一個簡單爬蟲練習。

閒來無聊，感覺美團資訊可能會爬取有點難度，so，我就想來試一試爬取一下美團的美食的資訊，不過，經過搜尋，也有大佬做過了，但是我自己做的呢，還是寫下來分享一下吧，畢竟是自己寫出來的程式碼。依然用到的是Python3，Request，bs4裡面的Beauti

Python爬蟲 - 獲取美團美食資料

這兩天接觸了一下python爬蟲，根據網上的一些部落格寫了下面的程式碼來抓取美團網上的美食資料，記錄一下。 #from bs4 import BeautifulSoup #解析html或xml檔案的庫 import urllib.request import csv import re imp

python爬取美團--鮮花商家資訊，設定代理池

代理池設定：這裡代理ip從快代理那獲取，新使用者有4小時免費測試時間。從http://dps.kdlapi.com/api/getdps/中獲取我們的ip代理池，根據使用者名稱密碼最後生成proxy_auth代理池。 proxy_auth = [] usernam

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

Python爬蟲獲取招聘網站職位資訊

作為一名Pythoner，相信大家對Python的就業前景或多或少會有一些關注。索性我們就寫一個爬蟲去獲取一些我們需要的資訊，今天我們要爬取的是前程無憂！說幹就幹！進入到前程無憂的官網，輸入關鍵字“Python”，我們會得到下面的頁面我們可以看到這裡羅列了"職位名"、"公司名"、"工作地

Python爬蟲實戰專案之小說資訊爬取

我們以奇書網為例進行爬取網址：https://www.qisuu.la 一，先新建一個新的資料夾，名字自取，用於存放py檔案和爬取的資料二，找到要爬取的網站的ur和你自己瀏覽器的請求頭，（因為我是以奇書網為例，瀏覽器為火狐瀏覽器）

Python爬取淘寶店鋪資訊

1.採用Chrome無頭瀏覽模式，後臺自動執行 2.函式結構化，易於擴充套件改變 3.異常重啟，防止崩潰已經封裝完畢 import re from selenium import webdriver from selenium.webdriver.common.by

python爬蟲--獲取天貓店鋪商品價格及銷量

（一）專案目標1. 獲取天貓店鋪 “探路者官方旗艦店” 所有商品的名稱、價格以及銷量。說明：本次專案目標是從一個熱門店鋪排行榜中隨機選擇的，沒有任何針對性的含義。該排行榜的網址為： http://www.xlphb.cn/index.php?c=shop2. 該店鋪的截圖如下

python爬蟲之獲取豆瓣電影資訊

此次是師哥給佈置的任務，所以這幾天就在研究如何完成獲取https://movie.douban.com/top250這個網站裡面250部電影的資訊。主要就是應用了python的urllib2與beautifulsoup的結合使用，也是我第一次使用爬蟲，當然現在看也是基礎的

Python爬蟲之實習僧招聘資訊及資料分析

真皮沙發這次又來了！在上次的兩個爬蟲中，筆者探討了python爬蟲的入門以及re模組的運用。而上兩次的爬取內容都是筆者閒的蛋疼入門爬蟲所選擇的連個爬取頁面。今天筆者要來搞事了，這次是搞正事。是的，搞正事。相信很多的同學都有在各大招聘網站上瀏覽過，各種層出不起的資訊，著實讓

python爬蟲爬取美團西安美食資料

經歷了一週的種種波折，參考了CSDN上N多博主的部落格，終於搞定了美團西安美食資料，在此做簡單記錄：愚蠢如我，不知如何讓爬蟲程式翻下一頁，只好看了前後兩頁請求的網址有什麼不同，後來發現第一頁字尾是‘pn1’,第二頁是‘pn2’,以此類推……所以手動查看了一共有15頁之後，萌生

Python爬蟲練習之一：抓取美團資料

{'poiId': 1653468, 'frontImg': 'http://p0.meituan.net/600.600/mogu/7f102559bd246c78d7f2d2ab066a12d0139144.jpg', 'title': '火宴山（大悅城店）', 'avgScore': 4.9, 'all

爬蟲抓取美團網上所有商家資訊

由於美團網對於IP訪問次數有限制,當訪問達到一定次數美團會增加延遲,訪問次數再增加時就會有驗證碼,所以爬取時就需要注意控制訪問的頻率,以及訪問一定次數後更換代理IP. 在爬取過程中我們可以先抓取所有的

爬取美團網的美食點評資訊（含頁面分析過程）

寫在前面：憑藉興趣寫了很多爬蟲的小程式，但是都沒有以博文的形式分享出來。爬取美團網的資料是因為課題研究需要，已經將深圳所有的美團店鋪評論資料爬取完畢（大眾點評和百檽米的相應區域也已爬取完畢，對爬蟲有興趣可以看我的GitHub主頁：https://github

python2.7+anaconda爬蟲爬取美團商家資訊

第一步，開啟美團網https://chs.meituan.com/（谷歌瀏覽器）——點選右鍵檢查——點選左中箭頭——選中文字美食<a href=http://chs.meituan.com/meishi/，接下來我們把這些url爬取下來 def get_sta

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

PYTHON 爬蟲筆記十:利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB（實戰項目三）

pre pager 淘寶 NPU group color 存在 pan rgs 利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB 目標站點分析流程框架爬蟲實戰 spider詳情頁 import pymongo im

python爬蟲——美團美食店鋪資訊

寫在前面

整體思路

程式碼參考

相關推薦