1. 程式人生 > >Project 3 :Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

Project 3 :Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

基於python3.6—pycharm編寫的,都已經除錯過了,歡迎大家提出交流意見。

關於一些基礎的資料網頁分析(比如為什麼是這個url)沒有過多贅述,看不懂的自行百度。

原始碼可以直接拷貝執行。

轉載請註明來源。


import requests
import re

'''
Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取
'''
#抓取代理IP函式
def get_https():
    for i in range(0,10):
        url = "http://www.xicidaili.com/wn/%d"%(i+1) #構建請求目標URL
        #構建請求頭
headers = { 'Host':'www.xicidaili.com', 'Referer':'http://www.xicidaili.com/', 'Upgrade-Insecure-Requests':'1', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' } resp = requests.get(url,headers
=headers) resp.encoding = resp.apparent_encoding #設定編碼為網頁編碼 result = resp.text https = re.findall(r"\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b", result) #正則表示式提取IP地址 ports = re.findall(r"<td>(\d+)</td>", result) #正則表示式提取埠 #建立檔案儲存資料 with open('https.txt','a',encoding='utf-8') as
f: for x in range(100): f.write("https://"+https[x]+":"+ports[x]+"\n") #組合地址和埠,獲取完整的IP地址 print('正在寫入第',100*i+x+1,'條') #構建讀取抓取到的代理IP函式 def read_https(): with open('https.txt', 'r', encoding='utf-8') as f: line = f.read().strip('\n') print(line) if __name__ == '__main__': get_https() read_https()

相關推薦

Project 3 Python爬蟲原始碼實現1000西免費代理IP-HTTPS儲存讀取

基於python3.6—pycharm編寫的,都已經除錯過了,歡迎大家提出交流意見。關於一些基礎的資料網頁分析(比如為什麼是這個url)沒有過多贅述,看不懂的自行百度。原始碼可以直接拷貝執行。轉載請註明來源。import requests import re ''' Pyt

python網路爬蟲實戰——實時西免費代理ip

參考網上高手示例程式,利用了多執行緒技術,Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

python3 學習 3python爬蟲之爬動態載入的圖片,以百度圖片為例

轉: https://blog.csdn.net/qq_32166627/article/details/60882964 前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片

[Python爬蟲] 7-Charles微信小程式

最近在嘗試抓取微信的小程式,用到了Charles,微信小程式的話需要使用HTTPS抓包,網上有些教程內容有步驟的缺失,所以重新整理一份傻瓜式的教程,環境WIN10+IOS,內容基於Roy_Liang前輩

python的BeautifulSoup實現網頁資料

1環境:pycharm,python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):    

Python爬蟲實戰之淘寶MM照片(一)

背景   Python爬蟲系列教程的一次實戰,然而淘寶進行過頁面改版,現在已經沒有淘寶MM這個版面,取而代之的是淘女郎。改版後,頁面是使用JS渲染的,並不能直接通過url來切換頁碼。該系列教程後續講到

Python爬蟲一步步房產資訊

嗯,這一篇文章更多是想分享一下我的網頁分析方法。玩爬蟲也快有一年了,基本程式碼熟悉之後,我感覺寫一個爬蟲最有意思的莫過於研究其網頁背後的載入過程了,也就是分析過程,對效能沒有特殊要求的情況下,程式設計一般是小事。 以深圳地區的X房網為例吧。XX房網的主頁非常簡潔,輸入相

Python爬蟲,用於豆瓣電影Top前100的電影的名稱

初步接觸python爬蟲(其實python也是才起步),發現一段程式碼研究了一下,覺得還比較有用處,Mark下。 上程式碼: #!/usr/bin/python #coding=utf-8 #Author: Andrew_liu #mender:cy "

Python爬蟲學習,網頁上的天氣資訊

今天學習了使用python編寫爬蟲程式,從中國天氣網爬取杭州的天氣。使用到了urllib庫和bs4。bs4提供了專門針對html的解析功能,比用RE方便許多。 # coding : UTF-8 import sys reload(sys) sys.setdef

Python爬蟲】按時爬京東幾類自營手機型號價格引數存入資料庫

一、最近剛好想換手機,然後就想知道京東上心儀的手機價格如何,對比手機價格如何,以及相應的歷史價格,然後就用Python requests+MySQLdb+smtplib爬取相關的資料 二、關於實現的主要步驟: 1、根據京東搜尋頁面,搜尋某型號(

[Python爬蟲] 之十九Selenium +phantomjs 利用 pyquery超級TV網數據

images 判斷 nco dex onf etc lac lin 利用   一、介紹     本例子用Selenium +phantomjs爬取超級TV(http://www.chaojitv.com/news/index.html)的資訊信息,輸入給定關鍵字抓取

Python爬蟲教程簡書文章的儲存

本文內容將與大家一起從簡書的文章頁面抓取文章標題、作者、釋出時間以及正文內容,並且將抓取到的這些資訊存入Excel表格中。本文對簡書文章的抓取僅為Python的學習交流,尊重作者著作權,不對抓取到的文章做其他用途。本文使用Chrome瀏覽器對頁面中需要抓取的內容進行分析。 首先我們從簡書

Project-3基於堆和迴圈桶實現 djikstra 演算法

Project-3:基於堆和迴圈桶實現 djikstra 演算法 實驗原理 堆: 堆是一種經過排序的完全二叉樹,其中任一非終端節點的資料值均不大於(或不小於)其左子節點和右子節點的值。最大堆和最小堆是二叉堆的兩種形式。最大堆:根結點的鍵值是所有堆結點鍵值

Python爬蟲技術幹貨,教你如何實現京東店鋪信息及下載圖片

text log proc sha 如何 內容 方法 篩選 註意 什麽是Python爬蟲開發 Python爬蟲開發,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁

python第一個爬蟲的例子數據到mysql,實測有數據

入mysql數據庫 nor gecko /usr png 支持 web local webkit python3.5 先安裝庫或者擴展 1 requests第三方擴展庫 pip3 install requests 2 pymysql pip3 install pym

使用Python的BeautifulSoup庫實現一個可以爬1000百度百科數據的爬蟲

otto 提取數據 tps summary 簡介 標題格式 段落 字典 如果 BeautifulSoup模塊介紹和安裝 BeautifulSoup BeautifulSoup是Python的第三方庫,用於從HTML或XML中提取數據,通常用作於網頁的解析器 Beauti

python接口自動化測試二python代碼實現接口測試

服務 獲取 解碼 odi false 壓縮 詳情 異常 將不 url = ‘接口地址‘ r = requests.get(url) #發送get請求 print(r.status_code) #打印狀態碼,若有重定向,返回的是重定向

軟工作業3Python詞頻統計

alt stat 小寫 代碼 strong pla 創建 處理 inf 一、程序分析 1.讀文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 file=open(dst,"r

python爬蟲-基礎入門-爬整個網站《3

python爬蟲-基礎入門-爬取整個網站《3》 描述:   前兩章粗略的講述了python2、python3爬取整個網站,這章節簡單的記錄一下python2、python3的區別   python2.x 使用類庫:   >> urllib 庫   >> urlli

Python 爬蟲簡單實現 (爬下載連結)

原文地址:https://www.jianshu.com/p/8fb5bc33c78e 專案地址:https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的