Project 3 :Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取
基於python3.6—pycharm編寫的,都已經除錯過了,歡迎大家提出交流意見。
關於一些基礎的資料網頁分析(比如為什麼是這個url)沒有過多贅述,看不懂的自行百度。
原始碼可以直接拷貝執行。
轉載請註明來源。
import requests import re ''' Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取 ''' #抓取代理IP函式 def get_https(): for i in range(0,10): url = "http://www.xicidaili.com/wn/%d"%(i+1) #構建請求目標URL #構建請求頭headers = { 'Host':'www.xicidaili.com', 'Referer':'http://www.xicidaili.com/', 'Upgrade-Insecure-Requests':'1', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' } resp = requests.get(url,headers=headers) resp.encoding = resp.apparent_encoding #設定編碼為網頁編碼 result = resp.text https = re.findall(r"\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b", result) #正則表示式提取IP地址 ports = re.findall(r"<td>(\d+)</td>", result) #正則表示式提取埠 #建立檔案儲存資料 with open('https.txt','a',encoding='utf-8') asf: for x in range(100): f.write("https://"+https[x]+":"+ports[x]+"\n") #組合地址和埠,獲取完整的IP地址 print('正在寫入第',100*i+x+1,'條') #構建讀取抓取到的代理IP函式 def read_https(): with open('https.txt', 'r', encoding='utf-8') as f: line = f.read().strip('\n') print(line) if __name__ == '__main__': get_https() read_https()
相關推薦
Project 3 :Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取
基於python3.6—pycharm編寫的,都已經除錯過了,歡迎大家提出交流意見。關於一些基礎的資料網頁分析(比如為什麼是這個url)沒有過多贅述,看不懂的自行百度。原始碼可以直接拷貝執行。轉載請註明來源。import requests import re ''' Pyt
python網路爬蟲實戰——實時抓取西刺免費代理ip
參考網上高手示例程式,利用了多執行緒技術,Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr
python3 學習 3:python爬蟲之爬取動態載入的圖片,以百度圖片為例
轉: https://blog.csdn.net/qq_32166627/article/details/60882964 前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片
[Python爬蟲] 7-Charles抓取微信小程式
最近在嘗試抓取微信的小程式,用到了Charles,微信小程式的話需要使用HTTPS抓包,網上有些教程內容有步驟的缺失,所以重新整理一份傻瓜式的教程,環境WIN10+IOS,內容基於Roy_Liang前輩
python的BeautifulSoup實現抓取網頁資料
1環境:pycharm,python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):
Python爬蟲實戰之抓取淘寶MM照片(一)
背景 Python爬蟲系列教程的一次實戰,然而淘寶進行過頁面改版,現在已經沒有淘寶MM這個版面,取而代之的是淘女郎。改版後,頁面是使用JS渲染的,並不能直接通過url來切換頁碼。該系列教程後續講到
Python爬蟲一步步抓取房產資訊
嗯,這一篇文章更多是想分享一下我的網頁分析方法。玩爬蟲也快有一年了,基本程式碼熟悉之後,我感覺寫一個爬蟲最有意思的莫過於研究其網頁背後的載入過程了,也就是分析過程,對效能沒有特殊要求的情況下,程式設計一般是小事。 以深圳地區的X房網為例吧。XX房網的主頁非常簡潔,輸入相
Python爬蟲,用於抓取豆瓣電影Top前100的電影的名稱
初步接觸python爬蟲(其實python也是才起步),發現一段程式碼研究了一下,覺得還比較有用處,Mark下。 上程式碼: #!/usr/bin/python #coding=utf-8 #Author: Andrew_liu #mender:cy "
Python爬蟲學習,抓取網頁上的天氣資訊
今天學習了使用python編寫爬蟲程式,從中國天氣網爬取杭州的天氣。使用到了urllib庫和bs4。bs4提供了專門針對html的解析功能,比用RE方便許多。 # coding : UTF-8 import sys reload(sys) sys.setdef
【Python爬蟲】按時爬取京東幾類自營手機型號價格引數並存入資料庫
一、最近剛好想換手機,然後就想知道京東上心儀的手機價格如何,對比手機價格如何,以及相應的歷史價格,然後就用Python requests+MySQLdb+smtplib爬取相關的資料 二、關於實現的主要步驟: 1、根據京東搜尋頁面,搜尋某型號(
[Python爬蟲] 之十九:Selenium +phantomjs 利用 pyquery抓取超級TV網數據
images 判斷 nco dex onf etc lac lin 利用 一、介紹 本例子用Selenium +phantomjs爬取超級TV(http://www.chaojitv.com/news/index.html)的資訊信息,輸入給定關鍵字抓取
Python爬蟲教程:簡書文章的抓取與儲存
本文內容將與大家一起從簡書的文章頁面抓取文章標題、作者、釋出時間以及正文內容,並且將抓取到的這些資訊存入Excel表格中。本文對簡書文章的抓取僅為Python的學習交流,尊重作者著作權,不對抓取到的文章做其他用途。本文使用Chrome瀏覽器對頁面中需要抓取的內容進行分析。 首先我們從簡書
Project-3:基於堆和迴圈桶實現 djikstra 演算法
Project-3:基於堆和迴圈桶實現 djikstra 演算法 實驗原理 堆: 堆是一種經過排序的完全二叉樹,其中任一非終端節點的資料值均不大於(或不小於)其左子節點和右子節點的值。最大堆和最小堆是二叉堆的兩種形式。最大堆:根結點的鍵值是所有堆結點鍵值
Python爬蟲技術幹貨,教你如何實現抓取京東店鋪信息及下載圖片
text log proc sha 如何 內容 方法 篩選 註意 什麽是Python爬蟲開發 Python爬蟲開發,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁
python第一個爬蟲的例子抓取數據到mysql,實測有數據
入mysql數據庫 nor gecko /usr png 支持 web local webkit python3.5 先安裝庫或者擴展 1 requests第三方擴展庫 pip3 install requests 2 pymysql pip3 install pym
使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲
otto 提取數據 tps summary 簡介 標題格式 段落 字典 如果 BeautifulSoup模塊介紹和安裝 BeautifulSoup BeautifulSoup是Python的第三方庫,用於從HTML或XML中提取數據,通常用作於網頁的解析器 Beauti
python接口自動化測試二:python代碼實現接口測試
服務 獲取 解碼 odi false 壓縮 詳情 異常 將不 url = ‘接口地址‘ r = requests.get(url) #發送get請求 print(r.status_code) #打印狀態碼,若有重定向,返回的是重定向
軟工作業3:Python詞頻統計
alt stat 小寫 代碼 strong pla 創建 處理 inf 一、程序分析 1.讀文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 file=open(dst,"r
python爬蟲-基礎入門-爬取整個網站《3》
python爬蟲-基礎入門-爬取整個網站《3》 描述: 前兩章粗略的講述了python2、python3爬取整個網站,這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫: >> urllib 庫 >> urlli
Python 爬蟲簡單實現 (爬取下載連結)
原文地址:https://www.jianshu.com/p/8fb5bc33c78e 專案地址:https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的