python代理ip抓取大眾點評

阿新 • • 發佈：2019-01-04

抓大眾點評才抓了幾頁就被遮蔽，找到如下方法解決。

第一步：獲取代理ip

在http://www.xicidaili.com/nn獲取代理，命名為proxy_ip.py，程式碼如下：

# coding:utf-8
import requests
from bs4 import BeautifulSoup
import re
import os.path

user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5)'
headers = {'User-Agent': user_agent}

def getListProxies():
    session = requests.session()
    page = session.get("http://www.xicidaili.com/nn", headers=headers)
    soup = BeautifulSoup(page.text, 'lxml')

    proxyList = []
    taglist = soup.find_all('tr', attrs={'class': re.compile("(odd)|()")})
    for trtag in taglist:
        tdlist = trtag.find_all('td')
        proxy = {'http': 'http://'+tdlist[1].string + ':' + tdlist[2].string}
        url = "http://ip.chinaz.com/getip.aspx"  #測試IP是否可用
        try:
            response = session.get(url, proxies=proxy, timeout=5)
            proxyList.append(proxy)
            if(len(proxyList) == 50):  # 獲取ip個數
                break
        except Exception, e:
            continue

    return proxyList

if __name__ == "__main__":
    proxy_list = getListProxies()
    for i in proxy_list:
        with open("proxy_ip.txt", "w") as fw:
            fw.write(i["http"] + "\n")

部分結果如下：

http://61.135.217.7:80
http://222.182.53.69:8118
http://116.249.222.96:8118
http://122.114.31.177:808
http://222.76.187.20:8118
http://115.46.151.140:8123
http://123.185.131.236:8118
http://112.114.95.43:8118
http://171.37.156.139:8123
http://115.55.158.113:8118
http://112.114.93.73:8118
http://113.221.46.141:8888
http://112.114.94.42:8118
http://180.115.12.214:28471
http://112.114.99.32:8118

第二步：利用代理ip抓取大眾點評某個城市的所有美食商鋪的評分

# coding:utf-8
import codecs
import json
import time
import re
import urllib2
import random
import requests
from collections import Counter


proxy_ip_list = []
with codecs.open("proxy_ip.txt", "r", "utf-8") as fr:
    for line in fr.readlines():
        line = line.strip()
        proxy_ip_list.append({"http": line})

def proxy_random():
    global proxy_ip_list
    index = random.randint(0, len(proxy_ip_list) - 1)
    return proxy_ip_list[index]

def crawl_page_proxy(url, proxy):
    # proxy = {'http': 'http://115.226.11.45:3128'}
    url = "http://www.dianping.com/search/category/35/10/p1"
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
    web_data = requests.get(url, headers=headers, proxies=proxy)
    # 正則匹配評分
    res = re.findall(r'class\=\"sml\-rank\-stars sml\-str\d+\"', web_data.text)
    return res

def run(data_file):
    """
    輸入檔案，格式為：
    {"city": "延安", "url":"http://www.dianping.com/search/category/78/10/","max_pages":50,"min_pages":1}
    {"city": "太原", "url":"http://www.dianping.com/search/category/35/10/","max_pages":50,"min_pages":1}
    """
    with codecs.open("data.txt", "r", "utf-8") as fr:
        for line in fr.readlines():
            line = line.strip()
            data_json = json.loads(line)
            city = data_json["city"]
            main_url = data_json["url"]
            max_page = data_json["max_pages"]
            min_page = data_json["min_pages"]
            city_dict = {}
            city_dict[city] = []
            for page in range(min_page, max_page + 1):
                url = main_url + "p" + str(page)
                print "pages ==== ",city, url
                i = 0
                while i < 10:  # 重試
                    proxy_ip = proxy_random()
                    try:
                        stars_list = crawl_page_proxy(url, proxy_ip)
                        print proxy_ip, "OK"
                        break
                    except:
                        i += 1
                        print proxy_ip, "ERROR"
                print "\n"
                city_dict[city] += stars_list
                time.sleep(random.uniform(3,10))
            with codecs.open(city + ".txt", "w", "utf-8") as fw:
                for city in city_dict:
                    fw.write(city + "\t" + str(city_dict[city]) + "\n")
            time.sleep(30)

run("data.txt")

完成，沒有被遮蔽了。

python代理ip抓取大眾點評

抓大眾點評才抓了幾頁就被遮蔽，找到如下方法解決。第一步：獲取代理ip 在http://www.xicidaili.com/nn獲取代理，命名為proxy_ip.py，程式碼如下： # coding:utf-8 import requests from bs4 import

知乎內容抓取二（內含百度知道、百度熱點和代理ip抓取）

sts 精華可用其他添加 get word 登錄 rar 代碼路徑：https://github.com/prophetss/zhihu-crawl 　　接上一篇，知乎的抓取主要是獲取所有話題id進而可以得到所有話題url地址然後就可以抓取具體內容了。之前通過根話

如何使用免費爬蟲軟體抓取大眾點評商家電話資訊！請勿洩露資訊！

本文主要介紹如何使用后羿採集器的智慧模式，免費採集大眾點評商家的地址、人均、評價、電話等資訊。採集工具簡介：后羿採集器是一款基於人工智慧技術的網頁採集器，只需要輸入網址就能夠自動識別網頁資料，無需配置即可完成資料採集，是業內首家支援三種作業系統（包括Windows、Mac和Linux

抓取大眾點評評論的程式碼

import java.io.IOException; import org.apache.commons.httpclient.HttpClient; import org.apache.common

jsoup實戰之抓取大眾點評網區域省份城市資訊

需求:從大眾點評網抓取所有區域,省份,城市資訊所使用技術:manve+jsoup.1.7.3+httpclient.4.3.3 pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xs

python爬蟲之抓取代理伺服器IP

轉載請標明出處： http://blog.csdn.net/hesong1120/article/details/78990975 本文出自:hesong的專欄前言使用爬蟲爬取網站的資訊常常會遇到的問題是，你的爬蟲行為被對方識別了，對方把你的IP遮蔽了，返回

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬取大眾點評成都資料，只為告訴你哪家火鍋最好吃

冬天到了，天氣越來越冷，小編起床越來越困難了，每一天都想吃辣辣的火鍋。成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 Python學

Python 爬取大眾點評 50 頁資料，最好吃的成都火鍋根本想不到！

成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 &nbs

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。首先，我的開發環境是：電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使

python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼

*第二天是指寫部落格的第二天創作背景對於新手來說最快的學習方法就是看專案，在百度搜索python爬蟲基本都是爬大眾點評的，不知道這個網站做錯了什麼被這麼多人爬。接下來博主興沖沖的找了幾個有程式碼的部落格，改了改就測試，但是結果無非就是網站不能正常訪問啊，需要拖動驗證之

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

import requests from bs4 import BeautifulSoup import traceback # 異常處理 import xlwt # 寫入xls表 # Cookie記錄登入資訊，session請求 def get_content(url,he

Python爬蟲設定代理IP爬取知乎圖片

本文接著前面兩文中提到的內容來繼續完善我們的Python爬蟲。上文地址：通過Python爬蟲爬取知乎某個問題下的圖片設定代理的方式很簡單，可以看看這裡Requests的官方文件，這裡也有對應的中文版介紹，點選開啟連結先簡單說下requests代理的使用，摘自上述提到的文

python+pypcap+dpkt抓取IP資料包

1.簡介 pypcap庫是一款基於libpcap封裝的為python語言提供介面的抓包庫。 dpkt則是用來解析資料包的庫。 pip install pypcap pip install dpkt 2. #coding:utf-8 import pc

用Python進行網頁抓取

google 神奇顯示 rss 遍歷 ecb data- 可用 appdata 引言　　從網頁中提取信息的需求日益劇增，其重要性也越來越明顯。每隔幾周，我自己就想要到網頁上提取一些信息。比如上周我們考慮建立一個有關各種數據科學在線課程的歡迎程度和意見的索引。我們不僅需要

使用redis所維護的代理池抓取微信文章

sge article pri data item referer count ttr fail 搜狗搜索可以直接搜索微信文章，本次就是利用搜狗搜搜出微信文章，獲得詳細的文章url來得到文章的信息.並把我們感興趣的內容存入到mongodb中。因為搜狗搜索微信文章的反爬蟲比

Scrapy爬取大眾點評

BE info enable each city wow64 news 數據 windows 最近想吃烤肉，所以想看看深圳哪裏的烤肉比較好吃，於是自己就開始爬蟲咯。這是個靜態網頁，有反爬機制，我在setting和middlewares設置了反爬措施 Setting # -

Python爬蟲：抓取手機APP的數據

sig ner ont sele ebo span fail pytho 抓取摘要: 大多數APP裏面返回的是json格式數據，或者一堆加密過的數據。這裏以超級課程表APP為例，抓取超級課程表裏用戶發的話題。 1、抓取APP數據包方法詳細可以參考這篇博文：

python多任務抓取虎牙妹子圖片

() like windows url odin jpg all request 任務 import re import urllib.request import gevent def download(image_download, images_path,i):

python代理ip抓取大眾點評

相關推薦