網路爬蟲筆記（Day8）——IP代理

阿新 • • 發佈：2018-11-01

可以去某寶或其他渠道購買，具體使用看自己購買商家的API文件，檢視使用方法。

ip_proxy.py

import requests


class ip_getter(object):
    def __init__(self):
        self.ip_proxy_str = get_ip_string()

    def update_ip_proxy_str(self):
        self.ip_proxy_str = get_ip_string()
        print('get one ip : ' + self.ip_proxy_str)


def get_ip_string():
    url = 'API介面'
    response = requests.get(url)

    return response.text

boos_bs4.py ( boos直聘例項)

from bs4 import BeautifulSoup
import requests
import ip_proxy
from urllib import parse

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}


def get_boss_info(my_ip, detailed_url):
    # url = 'https://www.zhipin.com/job_detail/7e883f0c3a336cb51n142968FFM~.html?ka=search_list_1'

    proxy = {
        'http': 'http://' + my_ip.ip_proxy_str,
        'https': 'http://' + my_ip.ip_proxy_str
    }
    response = requests.get(detailed_url, headers=headers, proxies=proxy, timeout=5)

    soup = BeautifulSoup(response.text, 'lxml')
    title = soup.find('h1').text
    # div_ele = soup.find('div', class_="name")
    # print(div_ele)
    salary = soup.find('span', class_="badge").text.replace('\n', '').strip()
    print(title)
    print(salary)
    gezhong_info = soup.select('div.info-primary > p')[0].text.replace('\n', '').strip()
    print(gezhong_info)
    gangwei_info = soup.select('div.text')[0].text
    print(gangwei_info)


# 獲取詳情頁的url
def get_detail_url(my_ip, url):
    # url = 'https://www.zhipin.com/c101010100/h_101010100/?query=python&page=2&ka=page-2'
    proxy = {
        'http': 'http://' + my_ip.ip_proxy_str,
        'https': 'http://' + my_ip.ip_proxy_str
    }
    response = requests.get(url, headers = headers, proxies=proxy, timeout=5)

    soup = BeautifulSoup(response.text, 'lxml')
    # a_ele_list = soup.select('h3.name > a')
    a_ele_list = soup.select('div.job-list > ul > li div.info-primary > h3 > a')

    for a_ele in a_ele_list:
        # 屬性值的獲取可以通過類似字典的方式獲取
        a_href = a_ele['href']
        # 拼接詳情頁的連結
        href = parse.urljoin(url, a_href)
        print('詳情頁的href: ' + href)
        # 重試三次, 獲取代理訪問boss直聘, 三次沒有成功訪問就跳過
        for i in range(0, 3):
            try:
                # 獲取詳情頁的資訊
                get_boss_info(my_ip, href)
                break
            except Exception as e:
                print(e)
                my_ip.update_ip_proxy_str()


def get_all_info(my_ip):
    base_url = 'https://www.zhipin.com/c101010100/h_101010100/?query=python&page=%s&ka=page-%s'
    for i in range(1, 4):
        # 每一個分頁的url
        url = base_url % (i, i)
        # 迴圈處理, 如果proxy不好使, 就需要換代理, 如果重試4次依然不好使,就跳過
        for i in range(0, 4):
            try:
                # 迴圈四次訪問boss直聘的網站, 分頁的內容
                # get_detail_url(my_ip, url)
                get_detail_url(my_ip, url)
                break
            except Exception as e:
                print(e)
                my_ip.update_ip_proxy_str()


if __name__ == '__main__':
    my_ip = ip_proxy.ip_getter()
    # 獲取一個ip
    # proxy_str = '36.27.143.72:21450'
    # print(proxy_str)
    # 獲取所有的boss直聘資訊
    get_all_info(my_ip)

# with open('boss.html', 'wb') as f:
#     f.write(response.content)

網路爬蟲筆記（Day8）——IP代理

可以去某寶或其他渠道購買，具體使用看自己購買商家的API文件，檢視使用方法。 ip_proxy.py import requests class ip_getter(object): def __init__(self): self.ip_proxy_str =

網路爬蟲筆記（Day8）——BeautifulSoup

BeautifulSoup 我們到網站上爬取資料，需要知道什麼樣的資料是我們想要爬取的，什麼樣的資料是網頁上不會變化的。 Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為

網路爬蟲筆記（Day6）——妹子圖

利用多程序爬取妹子圖：http://www.mzitu.com 完整程式碼如下：程序，參看博文程序和執行緒——Python中的實現 import requests from lxml import etree import os import mul

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

分析過程與鏈家是一樣的。騰訊社招完整程式碼如下： import requests from lxml import etree from mysql_class import Mysql # 自己封裝好的Mysql類 def txshezhao(keywords, page):

網路爬蟲筆記（Day5）——鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊

網路爬蟲筆記（Day4）

爬取今日頭條圖集進入今日頭條首頁：https://www.toutiao.com/ 步驟：1、檢視網頁，查詢我們需要的URL，分析URL

網路爬蟲筆記（Day3）

首先分析雪球網 https://xueqiu.com/#/property 第一次進去後，第一次Ajax請求得到的是若下圖所示的 max_id=-1, count=10。然後往下拉，第二次Ajax請求，如下圖；發現URL裡面就max_id 和count不同，

網路爬蟲筆記（Day7）——Selenium

首先下載chromedriver 將其放入Python執行環境下，然後再去pip安裝selenium。最簡單的結構程式碼如下： from selenium import webdriver # ----------------------不開啟瀏覽器視窗-------------

Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

現在隨處可見 https 開頭的網站，urllib2可以為 HTTPS 請求驗證SSL證書，就像web瀏覽器一樣，如果網站的SSL證書是經過CA認證的，則能夠正常訪問，如：https://www.baidu.com/等...如果SSL證書驗證不通過，或者作業系統不信任伺服器的

TCP/IP詳解學習筆記（3）IP協議ARP協議和RARP協議

out 處理機傳輸包含發送 res 這也進行默認把這三個協議放到一起學習是因為這三個協議處於同一層，ARP協議用來找到目標主機的Ethernet網卡Mac地址，IP則承載要發送的消息。數據鏈路層可以從ARP得到數據的傳送信息，而從IP得到要傳輸的數據信息。　　

nodejs爬蟲筆記（三）

target ole n+2 如何獲取利用 mod git brush 所有思路：通過筆記（二）中代理的設置，已經可以對YouTube的信息進行爬取了，這幾天想著爬取網站下的視頻信息。通過分析YouTube，可以從訂閱號入手，先選擇幾個訂閱號，然後爬取訂閱號裏面的視頻分

python網絡爬蟲筆記（四）

inf 比較小寫字母網絡爬蟲作用自定義 gpo 外部而且一、python中的高階函數算法 1、sorted()函數的排序 sorted()函數是一個高階函數，還可以接受一個key函數來實現自定義的函數排序，key指定的函數作用於每個序列元素上，並根據key函

python網絡爬蟲筆記（九）

out 模塊 ade npe tex visible 代碼端口號 pac 4.1.1 urllib2 和urllib是兩個不一樣的模塊 urllib2最簡單的就是使用urllie2.urlopen函數使用如下 urllib2.urlopen(url[,

Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

9.png amp F12 不存在 strong xls sco 列表 std (一) 分析網頁下載下面這個鏈接的銷售數據 https://item.jd.com/6733026.html#comment 1、翻頁的時候，谷歌F12的Network頁簽可以

python | 爬蟲筆記（五）- 數據存儲

height iter use jordan rip 輕量數據存儲回滾 nosql 5.1 文件存儲先用request把源碼獲取，再用解析庫解析，保存到文本 1- txt 文本打開方式： file = open(‘explore.txt‘, ‘a‘, encodin

python | 爬蟲筆記 - （八）Scrapy入門教程

RoCE yield ini 配置自己數據存儲 2.3 rom 提取數據一、簡介 Scrapy是一個基於Twisted 的異步處理框架，是針對爬蟲過程中的網站數據爬取、結構性數據提取而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。

TCP/IP學習筆記（5）------IP選路

use 網絡通 icmp報文子網掩碼出現很好 ref 命令時間間隔靜態IP選路一個簡單的路由表選路是IP層最重要的一個功能之一。前面的部分已經簡單的講過路由器是通過何種規則來根據IP數據包的IP地址來選擇路由。這裏就不重復了。首先來看看一個簡單的系統路由表。

TCP/IP學習筆記（3）----IP，ARP，RARP協議

ip地址讀取出現請求直接 ip學習筆記 mac height ttl 把這三個協議放到一起學習是因為這三個協議處於同一層（網絡層協議），ARP協議用來找到目標主機的Ethernet網卡Mac地址，IP則承載要發送的消息。數據鏈路層可以從ARP得到數據的傳送信息，而從

神經網路學習筆記（1）Image Classification

學習網站：資料驅動方法 KNN（例如採用L1曼哈頓距離）程式碼如下： import numpy as np class NearestNeighbor: def train(self,X,y): self.Xtrain=X self

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

網路爬蟲筆記（Day8）——IP代理

相關推薦