urllib3下簡單爬蟲的建立流程。

阿新 • • 發佈：2018-12-17

Y25

# 匯入urllib3模組，os檔案操作模組，time時間模組
import urllib3, os, time
# 匯入lxml庫中的額etree，方便解析資料
from lxml import etree
# 匯入程序池
from multiprocessing import Pool

# 建立網路請求物件
http = urllib3.PoolManager()
# 禁用urllib3警告（urllib3在進行https請求時，可能會丟擲對應的警告，可以設定disable_warnings禁用對應的警告）
urllib3.disable_warnings()
# 模擬瀏覽器訪問網頁 

header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36', 'Content-type':'text/json'}

# 定義函式完成網路資料爬取（可傳入回撥函式和網路連結，或者直接傳入網路連結）
def get_net_data(url, method='get', callBack=None):
	# 傳送網路請求
    response = http.request( 
method,url,headers=header, retries=5)
    # 回撥函式不為空，返回對應資料
    if callBack is not None:
        callBack(response.data)
    # 只傳入網路連結的下，直接利用etree方法，解析提取html頁面資料的方式。轉化為節點樹的方式
    else:
        return etree.HTML(response.data)

# 定義函式完成頁面資料下載
def download_page(url):
	# 呼叫get_net_data函式爬取對應網站資料
    data = 
 get_net_data(url)
    # 根據對應的節點路徑表示式來選取網頁中的節點或節點集
    srcs = data.xpath("//ul[@class='new-img']/ul/li/a/img/@src")
    titles = data.xpath("//ul[@class='new-img']/ul/li/a/@title")

    for j in range(len(srcs)):
        os.mkdir('img/{0}'.format(titles[j]))
        response = http.request('get',srcs[j],headers=header)
        f = open('img/{0}/{1}'.format(titles[j],srcs[j].split('-')[-1]),'wb+')
        f.write(response.data)
        print('第%s張下載完成'%j)
        f.close()

# 設定主程序
if __name__ == '__main__':
    url = "http://www.7160.com/yulebagua/"
    # 建立程序池，實現多個程序同步執行的操作，並且方便管理多程序。（實現5個程序同時執行任務）
    pool = Pool(5)
    # apply_async用來向程序池中新增一個非同步執行的程序。 apply則用來向程序池中新增一個同步執行的融程序。
    pool.apply_async(download_page, args=(url,))
    # 關閉程序池，一旦程序池呼叫close操作，此後，程序池不再接受任何程序任務。
    pool.close()
    # 設定主程序等待子程序任務執行完畢
    pool.join()

結果展示：在這裡插入圖片描述

個人小結，定有不足，歡迎指點。謝謝~

urllib3下簡單爬蟲的建立流程。

Y25 # 匯入urllib3模組，os檔案操作模組，time時間模組 import urllib3, os, time # 匯入lxml庫中的額etree，方便解析資料 from lxml import etree # 匯入程序池 from multipro

小程式-簡單學習建立流程

1.申請帳號在這個小程式管理平臺，你可以管理你的小程式的許可權，檢視資料報表，釋出小程式等操作。小程式的 AppID 相當於小程式平臺的一個身份證，後續你會在很多地方要用到 AppID (注意這裡要區別於服務號或訂閱號的 AppID)。有了小程式帳號之後，我們需要一個工具來開

c#關於網頁內容抓取，簡單爬蟲的實現。（包括動態，靜態的）

整理一下最近做的幾個專案。總結幾個用到的知識點和關鍵部分程式碼，以供大家學習交流。 1、爬蟲抓取網頁內容資訊。可以用System.Net.WebRequest、webclient等類來處理。 2、對於某些動態網頁，生成頁面信心由javascript動態生成連結資訊的。也可以

token簡單的使用流程。

sin resin 簽名安裝第三方 sign 重復 json bsp 固定 Token的作用主要有兩個，一是防止表單重復提交，二是驗證身份。 Token使用的流程： 1 首先安裝第三方依賴cnpm install jsonwebtoken --save-dev 2 在co

分析並爬取美團美食資訊的一個簡單爬蟲練習。

閒來無聊，感覺美團資訊可能會爬取有點難度，so，我就想來試一試爬取一下美團的美食的資訊，不過，經過搜尋，也有大佬做過了，但是我自己做的呢，還是寫下來分享一下吧，畢竟是自己寫出來的程式碼。依然用到的是Python3，Request，bs4裡面的Beauti

簡單Web開發流程全解——下

接著簡單Web開發流程全解——上沒說完的地方接著寫，現在來講一講關於後端實現和開發流程的東西。後端實現一、環境配置與連結 Eclipse JSP/Servlet 環境搭建這個是用eclipse搭建jsp和servlet環境的，這樣就可以在eclipse

使用 PHP SOAP 來建立一個簡單的 Web Service。

訪問： http://www.debug.com/php-soap-demo.php?client=22 結果： apache: <VirtualHost _default_:80> DocumentRoot "E:\www\te

從第一個爬蟲建立起做蟲師的心，request物件，簡單使用，構造簡單的裝置請求頭，爬蟲簡單案例篇（2）

from urllib.request import urlopen from urllib.request import Request url ='http://www.baidu.com/' h

爬蟲入門，從第一個爬蟲建立起做蟲師的心，爬蟲簡單的入門庫fake_useragent,偽造隨機的請求頭，簡單用法-案例篇（4）

from urllib.request import Request,urlopen from fake_useragent import UserAgent url ='https://www.sxt

Scrapyd 在Linux下簡單部署Scrapy爬蟲

簡單介紹好了下面開始正式部署scrapy，我的系統環境是redhat(Linux發行版之一和centos操作差不多) 一，安裝相關依賴包 # TODO（我用的虛擬環境(如何建立看我前面的

Windows下用Codeblocks建立一個最簡單的DLL動態連結庫

建立一個最簡單的只有一個get_id() 函式的DLL庫一、建立C語言動態連結庫 1.新建一個動態庫的工程 File - New - Project - DLL - Go 新建的工程原來的main.cpp和main.h刪除，新建兩個檔案simple.

vue.js在windows本地下搭建環境和建立專案。

Vue.js是一套構建使用者介面的漸進式框架。與其他重量級框架不同的是，Vue 採用自底向上增量開發的設計。Vue 的核心庫只關注檢視層，並且非常容易學習，非常容易與其它庫或已有專案整合。另一方面，Vue 完全有能力驅動採用單檔案元件和Vue生態系統支援的庫開發的複雜單頁應用

Linux環境下makefile的建立與編譯--簡單方法

Linux在命令列下敲寫Makefile檔案有時會顯得繁瑣且操作不便，因此我們可以採用在Windows下建立文字檔案（.txt）之後拖進VMware虛擬機器下的Linux系統。此時在命令列執行 make

CentOS系統下簡單的分散式（HDFS）資料夾建立，檔案上傳、下載等簡單操作

目錄 Linux中eclipse建立分散式普通專案的基本操作建立工具類及測試類這裡基於上一篇部落格（https://blog.csdn.net/gaofengyan/article/details/85790825）進行學

學習9：rosed命令的簡單介紹 + 建立ROS訊息和ROS服務。

肛了一波四級，希望這次能過把- -# 不想收集8張4級准考證啊…… 用處不知道是幹嘛，主要可以直接編輯某個包裡的檔案。 1 rosed 1.1 介紹使用方法如下 $ rosed [package_name] <tab> 舉個例子，假設我們想要編輯ros

簡單聊下django的工作流程

畫圖技術拙劣，哈哈，不忍直視啊！這張圖片是我對django工作流程一個大致的分析。在你寫好一個完整的django後，它的工作流程應該是這樣的： 1.使用者在客戶端瀏覽器輸入URL地址，通過get/post請求方式，向服務端發起請求。 2.django服務端接收到客

PHP 實現簡單的樹形列表。

開發記錄動態數據庫設計在線最近在為公司開發一個在線瀏覽PDF文檔的小web系統。在構建動態列表的時候犯了愁，很久沒寫代碼了，手有些生了，搞了半天才搞出來，寫篇博文記錄一下。首先是數據庫設計我設計的一個列數為三列的表Treenodes，這三列分別用來存儲當前節點的id、節點名稱、父

前端代碼tomcat下簡單部署

top zip chm str lin angular tro version linux下軟件 filezilla [ftp] + visionapp Remote Desktop[遠程桌面] （前提：前後端代碼分離，如前端angular實現） ftp上傳到機器{軟

paramiko模塊執行linux下nohup卡住的問題。

linu ram out http 自動化部署問題 python eight lin 今天做一個自動化部署的時候發現，服務端通過python的paramiko模塊推命令的時候卡住了，沒反映了。入下圖：我客戶端那邊是執行一個shell腳本，腳本裏用n

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

urllib3下簡單爬蟲的建立流程。

Y25

相關推薦