Project 3 ：Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

阿新 • • 發佈：2019-01-20

基於python3.6—pycharm編寫的，都已經除錯過了，歡迎大家提出交流意見。

關於一些基礎的資料網頁分析（比如為什麼是這個url）沒有過多贅述，看不懂的自行百度。

原始碼可以直接拷貝執行。

轉載請註明來源。

import requests
import re

'''
Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取
'''
#抓取代理IP函式
def get_https():
    for i in range(0,10):
        url = "http://www.xicidaili.com/wn/%d"%(i+1) #構建請求目標URL
        #構建請求頭
 
headers = {
            'Host':'www.xicidaili.com',
            'Referer':'http://www.xicidaili.com/',
            'Upgrade-Insecure-Requests':'1',
            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
        resp = requests.get(url,headers 
=headers)
        resp.encoding = resp.apparent_encoding #設定編碼為網頁編碼
result = resp.text
        https = re.findall(r"\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b", result) #正則表示式提取IP地址
ports = re.findall(r"<td>(\d+)</td>", result) #正則表示式提取埠
        #建立檔案儲存資料
with open('https.txt','a',encoding='utf-8') as  
f:
            for x in range(100):
                f.write("https://"+https[x]+":"+ports[x]+"\n")  #組合地址和埠，獲取完整的IP地址
print('正在寫入第',100*i+x+1,'條')

#構建讀取抓取到的代理IP函式
def read_https():
    with open('https.txt', 'r', encoding='utf-8') as f:
        line = f.read().strip('\n')
        print(line)

if __name__ == '__main__':
    get_https()
    read_https()

Project 3 ：Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

基於python3.6—pycharm編寫的，都已經除錯過了，歡迎大家提出交流意見。關於一些基礎的資料網頁分析（比如為什麼是這個url）沒有過多贅述，看不懂的自行百度。原始碼可以直接拷貝執行。轉載請註明來源。import requests import re ''' Pyt

python網路爬蟲實戰——實時抓取西刺免費代理ip

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

[Python爬蟲] 7-Charles抓取微信小程式

最近在嘗試抓取微信的小程式，用到了Charles，微信小程式的話需要使用HTTPS抓包，網上有些教程內容有步驟的缺失，所以重新整理一份傻瓜式的教程，環境WIN10+IOS，內容基於Roy_Liang前輩

python的BeautifulSoup實現抓取網頁資料

1環境：pycharm，python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

Python爬蟲一步步抓取房產資訊

嗯，這一篇文章更多是想分享一下我的網頁分析方法。玩爬蟲也快有一年了，基本程式碼熟悉之後，我感覺寫一個爬蟲最有意思的莫過於研究其網頁背後的載入過程了，也就是分析過程，對效能沒有特殊要求的情況下，程式設計一般是小事。以深圳地區的X房網為例吧。XX房網的主頁非常簡潔，輸入相

Python爬蟲，用於抓取豆瓣電影Top前100的電影的名稱

初步接觸python爬蟲(其實python也是才起步)，發現一段程式碼研究了一下，覺得還比較有用處，Mark下。上程式碼： #!/usr/bin/python #coding=utf-8 #Author: Andrew_liu #mender：cy "

Python爬蟲學習，抓取網頁上的天氣資訊

今天學習了使用python編寫爬蟲程式，從中國天氣網爬取杭州的天氣。使用到了urllib庫和bs4。bs4提供了專門針對html的解析功能，比用RE方便許多。 # coding : UTF-8 import sys reload(sys) sys.setdef

【Python爬蟲】按時爬取京東幾類自營手機型號價格引數並存入資料庫

一、最近剛好想換手機，然後就想知道京東上心儀的手機價格如何，對比手機價格如何，以及相應的歷史價格，然後就用Python requests+MySQLdb+smtplib爬取相關的資料二、關於實現的主要步驟： 1、根據京東搜尋頁面，搜尋某型號（

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

Python爬蟲教程：簡書文章的抓取與儲存

本文內容將與大家一起從簡書的文章頁面抓取文章標題、作者、釋出時間以及正文內容，並且將抓取到的這些資訊存入Excel表格中。本文對簡書文章的抓取僅為Python的學習交流，尊重作者著作權，不對抓取到的文章做其他用途。本文使用Chrome瀏覽器對頁面中需要抓取的內容進行分析。首先我們從簡書

Project-3：基於堆和迴圈桶實現 djikstra 演算法

Project-3：基於堆和迴圈桶實現 djikstra 演算法實驗原理堆：堆是一種經過排序的完全二叉樹，其中任一非終端節點的資料值均不大於（或不小於）其左子節點和右子節點的值。最大堆和最小堆是二叉堆的兩種形式。最大堆：根結點的鍵值是所有堆結點鍵值

Python爬蟲技術幹貨，教你如何實現抓取京東店鋪信息及下載圖片

text log proc sha 如何內容方法篩選註意什麽是Python爬蟲開發 Python爬蟲開發,從網站某一個頁面(通常是首頁)開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁

python第一個爬蟲的例子抓取數據到mysql，實測有數據

入mysql數據庫 nor gecko /usr png 支持 web local webkit python3.5 先安裝庫或者擴展 1 requests第三方擴展庫 pip3 install requests 2 pymysql pip3 install pym

使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

otto 提取數據 tps summary 簡介標題格式段落字典如果 BeautifulSoup模塊介紹和安裝 BeautifulSoup BeautifulSoup是Python的第三方庫，用於從HTML或XML中提取數據，通常用作於網頁的解析器 Beauti

python接口自動化測試二：python代碼實現接口測試

服務獲取解碼 odi false 壓縮詳情異常將不 url = ‘接口地址‘ r = requests.get(url) #發送get請求 print(r.status_code) #打印狀態碼，若有重定向，返回的是重定向

軟工作業3：Python詞頻統計

alt stat 小寫代碼 strong pla 創建處理 inf 一、程序分析 1.讀文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 file=open(dst,"r

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

Project 3 ：Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

相關推薦