python爬取美團所有結婚商家(包括詳情)

阿新 • • 發佈：2018-12-14

本文章主要介紹爬取美團結婚欄目所有商家資訊(電話)

第一步：爬取區域
分析鞍山結婚頁面
https://as.meituan.com/jiehun/

分析重慶結婚頁面
https://cq.meituan.com/jiehun/

分析可得：url基本相同，我們只需爬取美團的選擇城市，然後構建我們的url，即可爬取所有區域的結婚資訊

主要實現程式碼：

def find_all_citys():
    response = requests.get('http://www.meituan.com/changecity/')
    if response.status_code == 200:
        results = []

        soup = BeautifulSoup(response.text,'html.parser')
        links = soup.select('.alphabet-city-area a')
        for link in links:
            temp = {
            'href' : link.get('href'),
            'name' : link.get_text().strip(),
            }
            results.append(temp)

        return results
    else:
        return None

第二步：構建完所有的url後，爬取每個url的列表資訊

每個區域url最多32頁，爬取每個商家，直到列表資料為空

主要程式碼如下：

for page in range(1,32):
			print("*" *30)
			url = need['url'] + 'pn' + str(page) +'/'
			# url = 'https://jingzhou.meituan.com/jiehun/b16269/pn1/'
			headers = requests_headers()
			print(url+"開始抓取")
			response = requests.get(url, headers=headers, timeout = 10)
			
			# , allow_redirects=False
			# if response.status_code == 302 or response.status_code == 301:
			# 	raise Exception("30*跳轉")

			pattern = re.compile('"errorMsg":"(\d*?)"',re.S)
			h_code = re.findall(pattern, response.text) 
			
			if len(h_code) != 0 and  h_code[0] == '403':
				raise Exception("403:錯誤資訊:<!-- -->伺服器拒絕請求")
			
			pattern = re.compile('"searchResult"\:(.*?),\"recommendResult\"\:',re.S)
			items = re.findall(pattern, response.text) 
			json_text = items[0] + "}"
			# print(json_text)
			json_data = json.loads(json_text)
			# print(len(json_data['searchResult']))
			if len(json_data['searchResult']) == 0:
				print(url+"未匹配到,列表頁抓取完畢")
				print("*" *30)
				update_url_to_complete(need['id'])
				break
			for store in json_data['searchResult']:
				# 建立sql 語句，並執行
				sql = 'INSERT INTO `jiehun_detail` (`url`,`poi_id`, `front_img`, `title`, `address`) \
		        VALUES ("%s","%s","%s","%s","%s")' % (url, store['id'],store['imageUrl'],store['title'],store['address'])
				# print(sql)
				cursor.execute(sql)

		        # 提交SQL
				connection.commit()
		update_url_to_complete(need['id'])
		print(url+ "抓取完畢")
		print("*" *30)

第三步：爬取商家詳情

url為https://www.meituan.com/jiehun/68109543/

其中68109543為商家id，已經在第二步爬取到，拼接完後即可爬取商家詳情

try:
		headers = {}
		print(need)
		print("*" *30)
		url = 'https://www.meituan.com/jiehun/' + str(need['poi_id']) + '/'
		headers = requests_headers()
		print(url+"開始抓取")
		response = requests.get(url, headers=headers, timeout = 10)
		
		

		pattern = re.compile('"errorMsg":"(\d*?)"',re.S)
		h_code = re.findall(pattern, response.text) 
		
		if len(h_code) != 0 and  h_code[0] == '403':
			raise Exception("403:錯誤資訊:<!-- -->伺服器拒絕請求")

		# print(response.text)
		# exit()
		soup = BeautifulSoup(response.text,'html.parser')
		errorMessage = soup.select('.errorMessage')
		if len(errorMessage) != 0:
			update_url_to_complete(need['id'], '', '')
			raise Exception(errorMessage[0].select('h2')[0].get_text())
		

		open_time = soup.select('.more-item')[1].get_text().strip()
		phone = soup.select('.icon-phone')[0].get_text().strip()
		
		update_url_to_complete(need['id'], open_time, phone)
		print(url+ "抓取完畢")
		print("*" *30)
		

	except Exception as e:
		print(e)
		print(headers)
		
		cookies = create_cookies()

其中美團會驗證你爬蟲的user-agent，cookie和ip，IP可通過代理ip，其實頁可以通過手機分享熱點，ip會自動更換，當ip被封時，重新分享熱點即可，但需要人為操作。

cookie美團封的很快，必須程式自動切換，我這裡簡單的用Phantomjs模擬來獲取headers頭

def create_cookies():
	driver = webdriver.PhantomJS()
	cookiestr = []
	# for x in range(1,10):
		
	driver.get("https://bj.meituan.com/jiehun/")
	driver.implicitly_wait(5)


	cookie = [item["name"] + "=" + item["value"] for item in driver.get_cookies()]  
	print("生成cookie")
	print(cookie)
	cookiestr.append(';'.join(item for item in cookie)) 
	return cookiestr

到此，資料已全部爬取完畢，大概花了2天時間，一共9526條商家，不多時因為美團上只有這些商家，此方法也可爬取美食欄目，可有90萬+的商家。結婚商家資訊如下

python爬取美團所有結婚商家(包括詳情)

本文章主要介紹爬取美團結婚欄目所有商家資訊(電話) 第一步：爬取區域分析鞍山結婚頁面 https://as.meituan.com/jiehun/ 分析重慶結婚頁面 https://cq.meituan.com/jiehun/ 分析可得：url基本相同，我們只需爬取美團

python爬取美團--鮮花商家資訊，設定代理池

代理池設定：這裡代理ip從快代理那獲取，新使用者有4小時免費測試時間。從http://dps.kdlapi.com/api/getdps/中獲取我們的ip代理池，根據使用者名稱密碼最後生成proxy_auth代理池。 proxy_auth = [] usernam

下午不知道吃什麼？用Python爬取美團外賣評論幫你選餐！

一、介紹朋友暑假實踐需要美團外賣APP評論這一份資料，一開始我想，這不就抓取網頁原始碼再從中提取資料就可以了嗎，結果發現事實並非如此，情況和之前崔大講過的分析Ajax來抓取今日頭條街拍美圖類似，都是通過非同步載入的方式傳輸資料，不同的是這次的是通過JS傳輸，其他的基本思路基本一致，希望那些資料

python爬蟲爬取美團西安美食資料

經歷了一週的種種波折，參考了CSDN上N多博主的部落格，終於搞定了美團西安美食資料，在此做簡單記錄：愚蠢如我，不知如何讓爬蟲程式翻下一頁，只好看了前後兩頁請求的網址有什麼不同，後來發現第一頁字尾是‘pn1’,第二頁是‘pn2’,以此類推……所以手動查看了一共有15頁之後，萌生

python2.7+anaconda爬蟲爬取美團商家資訊

第一步，開啟美團網https://chs.meituan.com/（谷歌瀏覽器）——點選右鍵檢查——點選左中箭頭——選中文字美食<a href=http://chs.meituan.com/meishi/，接下來我們把這些url爬取下來 def get_sta

分析並爬取美團美食資訊的一個簡單爬蟲練習。

閒來無聊，感覺美團資訊可能會爬取有點難度，so，我就想來試一試爬取一下美團的美食的資訊，不過，經過搜尋，也有大佬做過了，但是我自己做的呢，還是寫下來分享一下吧，畢竟是自己寫出來的程式碼。依然用到的是Python3，Request，bs4裡面的Beauti

python爬取美空網女神圖片，小心記憶體走火

爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/post/da39db… 在這個頁面中，咱們要找幾個核心的關鍵點，發現平面拍攝點選進入的是圖片列表頁面。接下來開始程式碼走起。獲取所有列表頁面我

Python爬取美空網未登入圖片

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，

如何爬取美團網美食！

資料爬取三步曲之前方有坑工作需求需要採集OTA網站的美食資料，某個城市的飯店型別情況等。對於老饕來說這不算個事。。。然而最後的結果是中午晚飯都沒有時間去吃了。。。情況如下進群：960410445 即可獲取數十套PDF！ Chrome F12直

爬取美團

實戰 Python 網路爬蟲：美團美食商家資訊和使用者評論一、網站分析及專案設計二、爬取所有商家資訊三、分別爬取每個商家的資訊和使用者評論資訊四、ORM 框架實現資料持久化儲存五、設定配置檔案，動態控制爬取方向一、網站分析及專案設計美

Python爬取美劇，再也不用劇荒了，哈哈~

小編最近放元旦假期了，外面冰天雪地的又不想出去玩兒~還是宅在家裡吧~ 但是身為宅女的我怎麼可能不追劇呢？最近小編迷上了美劇，無奈好多網站的美劇質量內容都參差不齊，於是本宅女就得自己動手啦，用Python爬美劇去。走吧~ 小編推薦大家可以加我的扣扣群 735934841 。

爬取美團網美食資料，看北京上海都愛吃些啥

資料爬取三步曲之前方有坑工作需求需要採集 OTA 網站的美食資料，某個城市的飯店型別情況等。對於老饕來說這不算個事，然而最後的結果是午飯晚飯都沒有時間去吃了……情況如下： Chrome F12 直接定位 get 請求，response 的結

使用python爬取12306上面所有車次資料

在爬取12306之前需要做的工作就是: 1,分析請求過程 2,分析是否需要處理cookie 3,編寫程式碼 4,測試爬取網站是否有訪問次數限制 5,部署到正式伺服器上這裡重點寫如何分析請求過程: 這是12306上面查詢車次的介面,出發地和目的地是我們需要輸入的, 如

爬取美團網的美食點評資訊（含頁面分析過程）

寫在前面：憑藉興趣寫了很多爬蟲的小程式，但是都沒有以博文的形式分享出來。爬取美團網的資料是因為課題研究需要，已經將深圳所有的美團店鋪評論資料爬取完畢（大眾點評和百檽米的相應區域也已爬取完畢，對爬蟲有興趣可以看我的GitHub主頁：https://github

Python爬取亞馬遜商品列表-xpath(詳情頁爬取待更新...)

一.分析頁面結構先行爬取首頁內容的兩個欄位，一個是商品名稱title以及價格price；二.分析頁面的請求：首先按照PC端的url進行請求，結果未得到返回響應的response的資料，於是通過chrom瀏覽器切換至手機端的來獲取響應：觀察到其url

爬蟲抓取美團網上所有商家資訊

由於美團網對於IP訪問次數有限制,當訪問達到一定次數美團會增加延遲,訪問次數再增加時就會有驗證碼,所以爬取時就需要注意控制訪問的頻率,以及訪問一定次數後更換代理IP. 在爬取過程中我們可以先抓取所有的

美團外賣商家獲取訂單-signToken取值

post ima gsl ffffff hid eve extend -1 ati 所需工具： findller chrome 獲取外賣歷史訂單地址為： http://e.waimai.meituan.com/v2/order/history/r/query?getNe

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

python爬取美團所有結婚商家(包括詳情)

本文章主要介紹爬取美團結婚欄目所有商家資訊(電話)

相關推薦