python如何實現爬蟲技術

阿新 • • 發佈：2018-11-28

一、什麼是爬蟲

爬蟲：一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。

二、Python爬蟲架構

Python 爬蟲架構主要由五個部分組成，分別是排程器、URL管理器、網頁下載器、網頁解析器、應用程式（爬取的有價值資料）。

排程器：相當於一臺電腦的CPU，主要負責排程URL管理器、下載器、解析器之間的協調工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重複抓取URL和迴圈抓取URL，實現URL管理器主要用三種方式，通過記憶體、資料庫、快取資料庫來實現。
網頁下載器：通過傳入一個URL地址來下載網頁，將網頁轉換成一個字串，網頁下載器有urllib2（Python官方基礎模組）包括需要登入、代理、和cookie，requests(第三方包)

網頁解析器：將一個網頁字串進行解析，可以按照我們的要求來提取出我們有用的資訊，也可以根據DOM樹的解析方式來解析。網頁解析器有正則表示式（直觀，將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊，當文件比較複雜的時候，該方法提取資料的時候就會非常的困難）、html.parser（Python自帶的）、beautifulsoup（第三方外掛，可以使用Python自帶的html.parser進行解析，也可以使用lxml進行解析，相對於其他幾種來說要強大一些）、lxml（第三方外掛，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 樹的方式進行解析的。

應用程式：就是從網頁中提取的有用資料組成的一個應用。

下面用一個圖來解釋一下排程器是如何協調工作的:

三、urllib2 實現下載網頁的三種方式

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import cookielib
import urllib2
 
url = "http://www.baidu.com"
response1 = urllib2.urlopen(url)
print "第一種方法"
#獲取狀態碼，200表示成功
print response1.getcode()
#獲取網頁內容的長度
print len(response1.read())
 
print "第二種方法"
request = urllib2.Request(url)
#模擬Mozilla瀏覽器進行爬蟲
request.add_header("user-agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())
 
print "第三種方法"
cookie = cookielib.CookieJar()
#加入urllib2處理cookie的能力
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print len(response3.read())
print cookie

四、第三方庫 Beautiful Soup 的安裝

Beautiful Soup: Python 的第三方外掛用來提取 xml 和 HTML 中的資料，官網地址 https://www.crummy.com/software/BeautifulSoup/

1、安裝 Beautiful Soup

開啟 cmd（命令提示符），進入到 Python（Python2.7版本）安裝目錄中的 scripts 下，輸入 dir 檢視是否有 pip.exe, 如果用就可以使用 Python 自帶的 pip 命令進行安裝，輸入以下命令進行安裝即可：

pip install beautifulsoup4

2、測試是否安裝成功

編寫一個 Python 檔案，輸入:

import bs4
print bs4

執行該檔案，如果能夠正常輸出則安裝成功。

五、使用 Beautiful Soup 解析 html 檔案

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import re
 
from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
#建立一個BeautifulSoup解析物件
soup = BeautifulSoup(html_doc,"html.parser",from_encoding="utf-8")
#獲取所有的連結
links = soup.find_all('a')
print "所有的連結"
for link in links:
    print link.name,link['href'],link.get_text()
 
print "獲取特定的URL地址"
link_node = soup.find('a',href="http://example.com/elsie")
print link_node.name,link_node['href'],link_node['class'],link_node.get_text()
 
print "正則表示式匹配"
link_node = soup.find('a',href=re.compile(r"ti"))
print link_node.name,link_node['href'],link_node['class'],link_node.get_text()
 
print "獲取P段落的文字"
p_node = soup.find('p',class_='story')
print p_node.name,p_node['class'],p_node.get_text()

python如何實現爬蟲技術

一、什麼是爬蟲爬蟲：一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。二、Python爬蟲架構 Python 爬蟲架構主要由五個部分組成，分別是排程器、URL管理器、網頁下載器、網頁解析器、應用程式（爬取的有價值資料）。排程器：相當於一臺電腦的CP

Python實現爬蟲從網絡上下載文檔

.data lose spi [] python enc print tco pre 最近在學習Python，自然接觸到了爬蟲，寫了一個小型爬蟲軟件，從初始Url解析網頁，使用正則獲取待爬取鏈接，使用beautifulsoup解析獲取文本，使用自己寫的輸出器可以將文本輸出保

博導推薦給我一本基於Python實現爬蟲的書, 最適合程式猿們看的!

網際網路包括了至今為止最有效的資料集，並且大年夜大年夜區域性能地下收費拜候。但這些資料根基上不克不及複用。它們被嵌入在網站的佈局、樣式中，得抽取出來才調應用。我們從網頁中抽取資料的過程就是我們熟知的彙集爬蟲，網際網路期間每天都有大年夜大年夜量的資訊被頒佈發表到彙集上，彙集爬蟲也愈來愈有效。

Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享

Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享 1.python爬蟲瀏覽器偽裝 1

python與爬蟲技術總結

做Python爬蟲已經有一小段時間了，從去年12月的兩天公司培訓與專案安排到畢業設計的實現，再到轉正後的專案，到現在我有過幾次python爬蟲抓取經歷，對python與爬蟲有了一個初步的瞭解，特此拿出來與大家分享。講真，剛剛接觸Python時候第一直覺覺得它是一個要多不

Java簡單實現爬蟲技術，抓取整個網站所有連結+圖片+檔案（思路+程式碼）

寫這個純屬個人愛好，前兩天想玩爬蟲，但是百度了一大圈也沒發現有好一點的帖子，所以就自己研究了下，親測小點的網站還是能隨隨便便爬完的，由於是單執行緒所以速度嘛~~你懂的（多執行緒沒學好，後期再慢慢加上多執行緒吧）先上幾張效果圖 ##需要用到的知識點

Python爬蟲技術幹貨，教你如何實現抓取京東店鋪信息及下載圖片

text log proc sha 如何內容方法篩選註意什麽是Python爬蟲開發 Python爬蟲開發,從網站某一個頁面(通常是首頁)開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁

如何自學Python爬蟲技術

python爬蟲作為程序員或者軟件測試員們的一員，置信大家一定都聽說過python語言。Python語言這兩年是越來越火了，它漸漸崛起也是有緣由的。比如市場需求、入門簡單易學、支持多種語言……當然這些都是很官方的。說白了，就是寫個web服務，可以用python；寫個服務器腳本，可以用python；寫個桌面客戶

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

python-實現一個貼吧圖片爬蟲

fix request arm agent x64 pan http python2 png 今天沒事回家寫了個貼吧圖片下載程序，工具用的是PyCharm，這個工具很實用，開始用的Eclipse，但是再使用類庫或者其它方便並不實用，所以最後下了個專業開發python程序的工

四周實現爬蟲系統超經典的Python零基礎實戰化教學 Python零基礎實戰課程

工作 ext 篩選搭建簡單不讓 har pdf 精確根目錄 ===============課程目錄=============== │ ├課程簡介.txt│ ├課時3 魔力手冊for實戰學員預習.pdf│ ├學習前必讀.txt│ ├<課程資料>│

爬蟲-python實現的抓取騰訊視頻所有電影

mar read light else highlight 電影 %s find 圖片用python實現的抓取騰訊視頻所有電影的爬蟲 # -*- coding: utf-8 -*- import re import urllib2 from bs4 import

使用爬蟲技術實現 Web 頁面資源可用性檢測

背景對於電商型別和內容服務型別的網站，經常會出現因為配置錯誤造成頁面連結無法訪問的情況（404）。顯然，要確保網站中的所有連結都具有可訪問性，通過人工進行檢測肯定是不現實的，常用的做法是使用爬蟲技術定期對網站進行資源爬取，及時發現訪問異常的連結。對於網路爬蟲，當前市面上已經存在大量

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

分享《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼

下載：https://pan.baidu.com/s/1DqeZDF-MOAQ6hlNx2fq3JA 《精通Python網路爬蟲：核心技術、框架與專案實戰》中文PDF+原始碼PDF，306頁，帶書籤目錄。配套原始碼。系統介紹Python網路爬蟲，注重實戰，涵蓋網路爬蟲原理、如何手寫Python網路爬蟲、

python實現併發爬蟲

在進行單個爬蟲抓取的時候，我們不可能按照一次抓取一個url的方式進行網頁抓取，這樣效率低，也浪費了cpu的資源。目前python上面進行併發抓取的實現方式主要有以下幾種：程序，執行緒，協程。程序不在的討論範圍之內，一般來說，程序是用來開啟多個spider，比如我們開啟了4程序，同時派發4個spider進行網路

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

【Python3爬蟲】用Python實現發送天氣預報郵件

int 字符串開發者工具 height window 1.0 需要 targe 沒有此次的目標是爬取指定城市的天氣預報信息，然後再用Python發送郵件到指定的郵箱。一、爬取天氣預報 1、首先是爬取天氣預報的信息，用的網站是中國天氣網，網址是http://www.

python如何實現爬蟲技術

一、什麼是爬蟲

二、Python爬蟲架構

三、urllib2 實現下載網頁的三種方式

四、第三方庫 Beautiful Soup 的安裝

五、使用 Beautiful Soup 解析 html 檔案

相關推薦