Python3爬蟲（1）小試牛刀

阿新 • • 發佈：2019-02-15

最近學習了python3的爬蟲機制！也就是通過使用urllib模組傳送http請求來獲取網頁的html原始碼，然後使用正則匹配出自己想要收集的資訊！(注意python2中所用的模組不一樣)

下面小試牛刀，做了一個例子！附上需求和原始碼！

需求：分頁爬取網頁上的ip地址資訊

儲存形式：（將從網頁上獲取到的資訊分行寫入.txt檔案中）

程式碼邏輯

#引入urllib模組，用於發起http請求
from urllib import request
#引入re模組，用於正則匹配
import re
#建立一個檔案物件（w+追加寫入模式）
file = open('ips.txt', 'w+', encoding='utf-8')

def get_html_66ip():
    #通過定義headers中的User-Agent偽裝成一個browser，如果不定義headers，User-Agent會被預設解析成python3 urllib
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
    }
    # 66代理，全國代理ip(2018年驗證ip,前89頁)
    for page_num in range(1,90):
        target = 'http://www.66ip.cn/{}'.format(page_num)
        r_obj = request.Request(url=target,headers=headers)
        response = request.urlopen(r_obj)
        html = response.read().decode('gbk')
        # print(html)

        pat_html = re.compile(r'<tr><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td></tr>',re.S)

        #這裡注意使用findall取出的資料res是一個列表，列表的每個元素是元組，即[('xxx','xxxx'),('xxxx','xxxxx')]
        res = pat_html.findall(html)

        #判斷匹配出的資訊，第一行表頭不要
        ips = []
        for k,v in enumerate(res):
            if k != 0:
                ips.append(v)
        #將元組轉成str，去除首尾的'('和')'寫入檔案
        for v in ips:
            file.write(str(v).lstrip('(').rstrip(')') + '\n')

#程序啟動宣告(程式從這裡開始執行)
if __name__ == '__main__':
    #呼叫爬取def
    get_html_66ip()
    #關閉檔案物件
    file.close()

Python3爬蟲（1）小試牛刀

最近學習了python3的爬蟲機制！也就是通過使用urllib模組傳送http請求來獲取網頁的html原始碼，然後使用正則匹配出自己想要收集的資訊！(注意python2中所用的模組不一樣)下面小試牛刀，

Python3網路爬蟲——（1）利用urllib進行簡單的網頁抓取

利用urllib進行簡單的網頁抓取urllib是Python提供的用於操作URL的模組l、快速使用urllib爬取網頁# -*- coding: UTF-8 -*- from urllib import

python3實現網路爬蟲（1）--urlopen抓取網頁的html

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送GET請求以獲取具體的網頁，再從網頁中讀取HTML內容。我們大家平時都使用網路瀏覽器，並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

python爬蟲（1）

log 圖片 resp color 解析url www. blog robots gbk 　　在開始學習爬蟲之前，我花了大概兩周時間來熟悉python3的基本語法。　　相比較於我的啟蒙語言VB，python的優美之處讓我深有體會。人生苦短，我用python！一、關於爬蟲

Python3爬蟲（四）請求庫的使用requests

with open decode python3 url -c highlight pos pen req Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、基本用法： 1. 安裝： pip install requests 2

Python3爬蟲（八）數據存儲之TXT、JSON、CSV

-c pytho IT light json read 信息不包含 exc Infi-chu: http://www.cnblogs.com/Infi-chu/ TXT文本存儲 TXT文本存儲，方便，簡單，幾乎適用於任何平臺。但是不利於檢索。 1.舉例：使用reque

Python3爬蟲（九）數據存儲之關系型數據庫MySQL

如果 except ror 故障 cit -c sqlit 鏈接庫 port Infi-chu: http://www.cnblogs.com/Infi-chu/ 關系型數據庫關系型數據庫是基於關系模型的數據庫，而關系模型是通過二維表來保存的，所以關系型數據庫的存儲方式就

python—網絡爬蟲（1）

lock max styles 更多 64 bit man nsf 理解網址安裝 request庫1，運行裏面輸入 CMD 直接輸入 pip install requests回車，即可安裝2，直接在終端輸入python進入python自帶的IDLE3,下面命令即爬取百度

Python3筆記（1）-字串去除空格的方法小結

可以考慮多次切割，然後判斷空字串，並重新生成新的list def get_variable_attribute(self, path_map_file): attribute_list = [] file_map = open(file=path_map_

Python的學習筆記DAY6---爬蟲（1）

爬蟲，全稱網路爬蟲，是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。要寫爬蟲，首先需要寫的程式能連線到網路，Python提供了urllib模組可以用來連線網路，一

正則與爬蟲（1）

正則是什麼正則是一門小型的程式語言，在python中正則被封裝成re模組。自己對正則的理解就是用來匹配字串中一些字元，正則使得匹配字串的匹配更加多樣。三種匹配方法 re模組中匹配了三種方法（findall,match,search） s = "/home/kioskday

爬蟲（1）

一、代理：　　1、是採用代理伺服器的方式來訪問伺服器，以防止伺服器封住本機的ip地址。二、urllib庫使用：　　1、獲得response物件：　　　　(1)方法：　　　　　　（1）status 　　　　　　(2)getheaders() 　　　　　　(3)read() 　　　　　　

從0開始學爬蟲（1）—— 配置工作環境

時間：2018/12/7 內容：爬蟲環境配置資源：https://pan.baidu.com/s/1ULd7H_9B-wiKH2manP9Inw 提取碼：k7nv 資源簡介： Python 程式包：https://www.python.or

開始寫一個爬蟲（1）

net 興趣可能 pytho pycha 備註其他 nco 編碼方式因為是作為筆記寫的，所以會很啰嗦,而且代碼不會全部展示。。首先，你要確定一個目標，就是你要爬的網站。我選的就不說了，比較邪惡，需要18歲以下的小僵屍繞路。選好之後，構思下整個腳本的大致結構。 1.

python3爬蟲（一）requests庫學習

前段時間利用零散時間在mooc上跟著嵩天老師學習了python爬蟲的相關知識，於是想把自己的學習經歷寫下來，對爬蟲的相關知識做一個歸納總結，文中如果有錯誤或者是不嚴謹的地方，歡迎指出和交流。下面我們開始介紹requests庫

用Python寫爬蟲（1）

一、網路爬蟲與搜尋引擎的關係爬蟲相當於眼睛和耳朵，是收集資料的。引擎相當於大腦，是理解和處理資料的。搜尋引擎大致可分為四個子系統：下載系統、分析系統、索引系統、查詢系統。而爬蟲只是下載系統上圖是搜尋引擎的一

認識爬蟲（1）

可以直接拿來執行 # 防止中文中文出現ｈｔｔｐ協議定義ＵＲＬ中的保留字元，編碼成１６進位制的字串形式 response = requests.get('https://tieba.baidu.com/f?kw=%E6%B5%81%E6%B5%AA%E6%B1%89') with open

爬蟲（1）：requests模組

requests介紹： reqeusts模組：python原生一個基於網路請求的模組，模擬瀏覽器發起請求。 requests模組的優點： - 1.自動處理url編碼 - 2.自動處理post請求的引數 - 3.簡化cookie的代理的操作： cookie操作： - 建立一個coo

python爬蟲（1）——簡單的爬取網頁的資訊

獲取網上真實的語料資料，本身對Py的掌握不是很好，記錄下自己學習的過程，希望對你有幫助。 #python3 獲得taoeba的語料（不知道從哪翻到的這個網站，有各國語言的句子，訪問速度較慢 # -

Python3爬蟲（一）抓取網頁的html

因為程式碼只有幾行，所以可以先貼程式碼： import urllib.request url = r'http://douban.com' res = urllib.request.urlopen(url) html = res.read().decode('utf-

Python3爬蟲（1）小試牛刀

相關推薦