python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

阿新 • • 發佈：2019-01-03

import xlwt
'''
爬取網頁時直接出現403，意思是沒有訪問許可權
'''
import requests
from bs4 import BeautifulSoup

#入口網頁
start_url = 'https://www.dianping.com/search/category/344/10'

def get_content(url,headers = None):
    response = requests.get(url,headers=headers)#發起了一次請求
    html = response.content
    return html

'''
    獲取所有行政區的url
'''
def region_url(html):
    soup = BeautifulSoup(html,'lxml')#lxml解析器
    #<div id="region-nav" class="nc-items ">
    #   <a href="/search/category/344/10/r299"><span>芙蓉區</span></a>
    #列表推導式
    base_url = 'https://www.dianping.com'
    region_url_list = [base_url+i['href'] for i in soup.find('div',id="region-nav").find_all('a')]
    return region_url_list

#獲取商戶的詳情頁的url地址
#find:取第一個(返回一個具體的元素，沒有為null)       find_all:匹配所有(返回列表，沒有返回[])
def get_shop_url(html):
    base_url = 'https://www.dianping.com'
    soup = BeautifulSoup(html,'lxml')#lxml解析器
    shop_url_list = [base_url+i.find('a')['href'] for i in soup.find_all('div',class_='tit')]
    return shop_url_list

#獲取所得資訊(店名，價格，評分)。。。解析頁面
def get_detail(html):
    soup = BeautifulSoup(html,'lxml')#lxml解析器
    #<h1 class="shop-name">1911牛肉烤串</h1>
    title = soup.find('div',class_='breadcrumb').find('span').text
    #<span id="avgPriceTitle" class="item">人均：-</span>
    price = soup.find('span',id="avgPriceTitle").text
    #<span id="comment_score"><span class="item">口味：7.6</span><span class="item">環境：7.4</span><span class="item">服務：7.5</span></span>
    evaluation = soup.find('span',id="comment_score").find_all('span',class_="item")#評分的list
    #<span id="reviewCount" class="item">3條評論</span>
    comments = soup.find('span',id="reviewCount").text#評論的數量
#     <div class="expand-info address" itemprop="street-address">
#         <span class="item" itemprop="street-address" title="麓鬆路南豐港安置小區12棟">
#                      麓鬆路南豐港安置小區12棟
#         </span>
#     </div>
    address = soup.find('span',class_="item",itemprop="street-address").text.strip()
    
#     print u'店名'+title
#     for ev in evaluation:
#         print ev.text
#     print u'價格'+price
#     print u'評論數量'+comments
#     print u'地址'+address
    return (title,evaluation[0].text,evaluation[1].text,evaluation[2].text,price,comments,address)
  



#檔案作為指令碼直接執行，而import到其他指令碼中是不會被執行的。
if __name__ =='__main__':
    items = []
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36',
        'Cookie':'_hc.v=dd67ff67-20d0-6e83-7f61-ce93e4d46539.1503387665; _lx_utm=utm_source%3Dbaidu%26utm_medium%3Dorganic; _lxsdk_cuid=15e08e4c108c8-01758fac19fbe5-3f63440c-100200-15e08e4c108c8; _lxsdk=15e08e4c108c8-01758fac19fbe5-3f63440c-100200-15e08e4c108c8; __utma=205923334.211352043.1503391484.1503391484.1503391484.1; __utmz=205923334.1503391484.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); looyu_id=29bc50ef1530ab64cbaa69b29cad64f39a_51868%3A1; s_ViewType=10; JSESSIONID=A49EED22A236962EA3506BA888799402; aburl=1; cy=344; cye=changsha; PHOENIX_ID=0a010918-15e0a223263-d4c1a92; __mta=146625163.1503391361571.1503401588676.1503408592089.10; _lxsdk_s=15e0a219034-38-9d5-acb%7C%7C37'
        }
    html = get_content(start_url)
    region_url_list = region_url(html)
    #遍歷所有行政區的所有商戶
    for url in region_url_list:#遍歷所有的行政區
        #簡單的出錯處理，有錯則略過
        try:
            for n in range(1,51):#遍歷所有的50頁
                html = get_content(url+'p'+str(n))
                #所有商戶的詳情頁
                shop_url_list = get_shop_url(html)
                for shop_url in  shop_url_list:
    #                 print shop_url
                    #提取資料，獲取
                    detail_html = get_content(shop_url,headers)
                    '''
                    #403 Forbidden（沒有訪問許可權）:
                                            （1）直接出現：
                                            （2）爬取一會兒出現403：可以通過代理ip解決
                    referer   防盜鏈
                    Host域名
                    Cookie
                    '''
                    items.append(get_detail(detail_html))
        except:
            continue
    new_table = r'F:\reptile_Python\daZhongDianPin_spiders\dzdp.xls'
    wb = xlwt.Workbook(encoding='utf-8')
    ws =wb.add_sheet('test1')  
    headData = ['商戶名字','口味評分','環境評分','服務評分','人均價格','評論數量','地址']
    for colnum in  range(0,7):
        ws.write(0,colnum,headData[colnum],xlwt.easyxf('font:bold on'))        
    index = 1
    lens = len(items)
    for j in range(0,lens):
        for i in range(0,7):
            ws.write(index,i,items[j][i])
        index=index+1
    
    wb.save(new_table)

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

Python爬蟲--爬取Stanford University、Harvard University關於Professor的相關資訊

Python爬蟲要求： Institute Bschool faculty directory Stanford University https://www.gsb.stanford.edu/faculty-research/fa

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊

歷時一下午加一晚上，終於把這個爬蟲程式碼寫好，後面還有很多想完善的地方（譬如資料儲存用redis、使用多執行緒加快速度、爬取圖片、細分資料等等），待有空再做更改，下面是具體的步驟與思路：工具：PyC

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

import requests from bs4 import BeautifulSoup import traceback # 異常處理 import xlwt # 寫入xls表 # Cookie記錄登入資訊，session請求 def get_content(url,he

Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

學習Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊，我爬取的北京地區的酒店，由於網站更新，原文中的一些方法已經不再適用，我的工作是在該文指導下重寫了一個爬蟲。爬蟲無非分為這幾塊：分析目標、下載頁面、解析頁面、儲存內容，其中下載頁面不提。

Python爬蟲爬取CSDND首頁的所有的文章

# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬蟲爬取CSDND首頁的所有的文章""" html="https://blog.csdn.n

Python爬取大眾點評成都資料，只為告訴你哪家火鍋最好吃

冬天到了，天氣越來越冷，小編起床越來越困難了，每一天都想吃辣辣的火鍋。成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 Python學

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

python2.7爬蟲例項詳細介紹之爬取大眾點評的資料

一．Python作為一種語法簡潔、面向物件的解釋性語言，其便捷性、容易上手性受到眾多程式設計師的青睞，基於python的包也越來越多，使得python能夠幫助我們實現越來越多的功能。本文主要介紹如何利用python進行網站資料的抓取工作。我看到過利用c++和java進行爬蟲的

Python 爬取大眾點評 50 頁資料，最好吃的成都火鍋根本想不到！

成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 &nbs

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。首先，我的開發環境是：電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使

Python爬蟲——爬取網頁中的圖片小試牛刀

Preface：以往爬取文字，這次需要爬取圖片pdf，先上手一個例子，爬取pdf，先取得url，然後通過urllib.urlretrieve函式將url的網頁內容遠端下載到本地，第一個引數為url，第二個引數為檔名(程式碼中有誤)，第三個引數為回撥函式，可以顯示下載進度。另

python 爬蟲爬取所有上市公司公告資訊（一）

。，。前面我們已經瞭解了python中多執行緒，selenium，requests等爬蟲基本操作的知識，現在我們準備編寫一個規模較大的爬蟲，目的是爬取所有上市公司2015年至今的公告資訊。相較於前面幾個簡單的爬蟲功能程式碼，公告資訊爬蟲需要考慮更多的問題，現在可以預見到的

python爬蟲爬取NBA貼吧的所有精品貼

首先用直接的方法寫，先嚐試下能否爬取成功 #coding:utf-8 import urllib2,urllib import re ''' 1.準備url地址 2.準備請求頭 3.建立請求物件 4.發起請求獲取第一頁原始碼，接收響應 5.通過第一頁原始碼，找到總頁數和標題

python 爬蟲爬取所有上市公司公告資訊（五）

。，。現在我們進過for迴圈，已經獲取到了每一個股票程式碼在2015年至今所有的公告內容連線和公告日期，且是以（日期，公告內容url）元組的形式加入到了爬取佇列中，在最內層迴圈結束後，我們編寫程式實現多執行緒和儲存公告內容的功能。公告最終在對應的json檔案裡是以鍵值對

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼

*第二天是指寫部落格的第二天創作背景對於新手來說最快的學習方法就是看專案，在百度搜索python爬蟲基本都是爬大眾點評的，不知道這個網站做錯了什麼被這麼多人爬。接下來博主興沖沖的找了幾個有程式碼的部落格，改了改就測試，但是結果無非就是網站不能正常訪問啊，需要拖動驗證之

python 爬蟲爬取所有上市公司公告資訊（二）

。，。設計公告資訊爬蟲面臨的主要問題在上一篇文章已經敘述過了，這篇文章我們選擇合適的資料來源和爬取的方式首先選擇爬取的資料來源，這裡筆者經過多方比較，最終選擇了東方財富網作為公告爬蟲的資料來源。下面以飛馬國際為例（002210）我們可以看到，東方財富網專門設有網頁儲

python爬蟲 爬取大眾點評中所有行政區內的商戶 將獲取資訊存於excle中

相關推薦

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中