1. 程式人生 > 實用技巧 >python爬蟲利用代理IP分析大資料

python爬蟲利用代理IP分析大資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲 作者:使用者6172015

( 想要學習Python?Python學習交流群:1039649593,滿足你的需求,資料都已經上傳群檔案流,可以自行下載!還有海量最新2020python學習資料。 )

在這個網際網路時代,HTTP代理成了不可缺少的一部分,我們都知道IP代理商也越來越多。那如何選擇代理商成了大家選擇的難題。其實爬蟲使用者完全可以通過代理IP的有效時間,代理IP的有效率,穩定性和自己去的需求去選擇自己需要的代理IP。

隨著爬蟲使用者越來越多,使用代理IP也多了起來,代理IP也幫助了爬蟲成功採集到資料,讓自己的業務有更好的發展。

大資料時代,離不開網路爬蟲,網路爬蟲也支援許多語言例如常見的python、java、php、c 語言等其他語言,每個語言對應的爬蟲需求和環境不同,爬蟲使用者選擇語言自然也不同。

一般爬蟲都會選擇python和java,python爬蟲之所以被大眾選擇,因為使用簡單。在使用python爬蟲進行資料抓取的時候,也有可能IP會被限制,避免業務效率下降,這時候就需要用到隧道轉發的http爬蟲代理。

爬蟲使用者如何利用python爬蟲成功採集到資料:

#! -*- encoding:utf-8 -*-

    import aiohttp, asyncio


    targetUrl 
= "http://httpbin.org/ip" # 代理伺服器(產品官網 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗證資訊 proxyUser = "username" proxyPass = "password" proxyServer = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort,
"user" : proxyUser, "pass" : proxyPass, } userAgent = "Chrome/83.0.4103.61" async def entry(): conn = aiohttp.TCPConnector(verify_ssl=False) async with aiohttp.ClientSession(headers={"User-Agent": userAgent}, connector=conn) as session: async with session.get(targetUrl, proxy=proxyServer) as resp: body = await resp.read() print(resp.status) print(body) loop = asyncio.get_event_loop() loop.run_until_complete(entry()) loop.run_forever()