Python 三種網頁抓取方法

阿新 • • 發佈：2019-01-28

摘要：本文講的是利用Python實現網頁資料抓取的三種方法；分別為正則表示式（re）、BeautifulSoup模組和lxml模組。本文所有程式碼均是在python3.5中執行的。

 本文抓取的是[中央氣象臺](http://www.nmc.cn/)首頁頭條資訊：

這裡寫圖片描述
其HTML層次結構為：

抓取其中href、title和標籤的內容。

一、正則表示式
copy outerHTML：

<a target="_blank" href="/publish/country/warning/megatemperature.html" title="中央氣象臺7月13日18時繼續釋出高溫橙色預警" 
>高溫預警</a>

程式碼：

# coding=utf-8
import  re, urllib.request

url = 'http://www.nmc.cn'
html = urllib.request.urlopen(url).read()
html = html.decode('utf-8')     #python3版本中需要加入
links = re.findall('<a target="_blank" href="(.+?)" title',html)
titles = re.findall('<a target="_blank" .+? title="(.+?)">' 
,html)
tags = re.findall('<a target="_blank" .+? title=.+?>(.+?)</a>',html)
for link,title,tag in zip(links,titles,tags):
    print(tag,url+link,title)

正則表示式符號’.’表示匹配任何字串（除\n之外）；‘+’表示匹配0次或者多次前面出現的正則表示式；‘？’表示匹配0次或者1次前面出現的正則表示式。更多內容可以參考Python中的正則表示式教程
輸出結果如下：

高溫預警 http://www.nmc.cn/publish/country/warning/megatemperature.html 
 中央氣象臺7月13日18時繼續釋出高溫橙色預警
山洪災害氣象預警 http://www.nmc.cn/publish/mountainflood.html 水利部和中國氣象局7月13日18時聯合釋出山洪災害氣象預警
強對流天氣預警 http://www.nmc.cn/publish/country/warning/strong_convection.html 中央氣象臺7月13日18時繼續釋出強對流天氣藍色預警
地質災害氣象風險預警 http://www.nmc.cn/publish/geohazard.html 國土資源部與中國氣象局7月13日18時聯合釋出地質災害氣象風險預警

二、BeautifulSoup 模組
Beautiful Soup是一個非常流行的Python模組。該模組可以解析網頁，並提供定位內容的便捷介面。
copy selector：

#alarmtip > ul > li.waring > a:nth-child(1)

因為這裡我們抓取的是多個數據，不單單是第一條，所以需要改成：

#alarmtip > ul > li.waring > a

程式碼：

from bs4 import BeautifulSoup
import urllib.request

url = 'http://www.nmc.cn'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html,'lxml')
content = soup.select('#alarmtip > ul > li.waring > a')

for n in content:
    link = n.get('href')
    title = n.get('title')
    tag = n.text
    print(tag, url + link, title)

輸出結果同上。

三、lxml 模組
Lxml是基於libxml2這一XML解析庫的Python封裝。該模組使用C語言編寫，解析速度比Beautiful Soup更快，不過安裝過程也更為複雜。
程式碼：

import urllib.request,lxml.html

url = 'http://www.nmc.cn'
html = urllib.request.urlopen(url).read()
tree = lxml.html.fromstring(html)
content = tree.cssselect('li.waring > a')

for n in content:
    link = n.get('href')
    title = n.get('title')
    tag = n.text
    print(tag, url + link, title)

輸出結果同上。

四、將抓取的資料儲存到列表或者字典中
以BeautifulSoup 模組為例：

from bs4 import BeautifulSoup
import urllib.request

url = 'http://www.nmc.cn'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html,'lxml')
content = soup.select('#alarmtip > ul > li.waring > a')

######### 新增到列表中
link = []
title = []
tag = []
for n in content:
    link.append(url+n.get('href'))
    title.append(n.get('title'))
    tag.append(n.text)

######## 新增到字典中
for n in content:
    data = {
        'tag'   : n.text,
        'link'  : url+n.get('href'),
        'title' : n.get('title')
    }

五、總結
表2.1總結了每種抓取方法的優缺點。
這裡寫圖片描述

原始碼連結

Python 三種網頁抓取方法

摘要：本文講的是利用Python實現網頁資料抓取的三種方法；分別為正則表示式（re）、BeautifulSoup模組和lxml模組。本文所有程式碼均是在python3.5中執行的。本文抓取的是[中央氣象臺](http://www.nmc.cn/)首頁頭條資

二.爬蟲:Python三種網頁內容抓取方法

使用 Beautiful Soup 解析 html 檔案 #!/usr/bin/pytho

用Python進行網頁抓取

google 神奇顯示 rss 遍歷 ecb data- 可用 appdata 引言　　從網頁中提取信息的需求日益劇增，其重要性也越來越明顯。每隔幾周，我自己就想要到網頁上提取一些信息。比如上周我們考慮建立一個有關各種數據科學在線課程的歡迎程度和意見的索引。我們不僅需要

python裏三種等待元素的方法

python元素等待 python顯性等待 wait方法 python隱性等待在做web或app的自動化測試經過會出現找不到元素而報錯的情況，很多時候是因為元素還沒有被加載出來，查找的代碼就已經被執行了，自然就找不到元素了。那麽我可以用等待元素加載完成後再執行查找元素的code。 Pyt

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片

PEXELS:Best free stock photos in one place. Pexels是一個提供免費高品質圖片,並且可商用的圖片網站.但是因為網站時外國的,所以連線和下載速度都略慢… 這裡只是為了講解圖片爬取和下載儲存的流程. 三種方式是指:分別指使用Lxml,Be

Python-三種方法求100-999之間的水仙花數

題目：算出１００－９９９之間的水仙花數水仙花數是指百位的３次方 + 十位的３次方 + 個位的三次方等於原數的整數方法一：將數字轉換為字串，用索引獲取百位十位個位數字 for i in range(100,1000): s=str(i) if int(s[0])*

在使用python的selenium庫抓取動態網頁時，瀏覽器內容出現空白的解決方式

轉載請標明出處，謝謝~。我使用的版本: 1、python 3.7 （IDE 用的 pycharm） 2、selenium(通過pip install 安裝的最新版本:3.14 時間：2018.9.6 ) 3、 geckodriver.exe 21.0 4、fi

機器學習（一）： python三種特徵選擇方法

特徵選擇的三種方法介紹：過濾型：選擇與目標變數相關性較強的特徵。缺點：忽略了特徵之間的關聯性。包裹型：基於線性模型相關係數以及模型結果AUC逐步剔除特徵。如果剔除相關係數絕對值較小特徵後

使用Python進行網頁抓取的介紹！

介紹網頁抓取是一種重要的技術，經常在許多不同的環境中使用，尤其是資料科學和資料探勘。 Python在很大程度上被認為是網路抓取的首選語言，其原因在於Python的內嵌電池特性。使用Python，您可以在大約15分鐘內使用不到100行程式碼建立一個簡單的抓取指令碼。因此，無論何種用途，網頁抓

python三種註釋方法

python三種註釋方法方式1：單行註釋：shift + #（在程式碼的最前面輸入，非選中程式碼進行註釋）多行註釋：同單行一樣在每一行的前面輸入shift + #（較麻煩了）方式2：單行和多行一樣的方式：Ctr+ / （前提是選中需要註釋的程式碼）方式

python多執行緒抓取網頁內容並寫入MYSQL

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## htm

Python網頁抓取之Lxml

Lxml是基於libxml2這一XML解析庫的Python封裝。該模組使用C語言編寫，解析速度比BeautifulSoup更快。 Lxml可以正確解析屬性兩側缺失的引號，並閉合標籤。如案例一案例二

python的BeautifulSoup實現抓取網頁資料

1環境：pycharm，python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):

Python 三種方法刪除列表中的元素

方法一、用remove("")方法刪除指定元素，沒有該元素時報錯； >>> number=[1,3,2,0] >>> number.remove(1)#刪除指定元素1，這裡是int型別因此不需要引號 >>> print(

Python網頁抓取urllib,urllib2,httplib[3]

使用urllib2，太強大了試了下用代理登陸拉取cookie，跳轉抓圖片...... 直接上demo程式碼了包括：直接拉取，使用Reuqest(post/get),使用代理，cookie,跳轉處理 #!/usr/bin/python # -*- coding:u

【Python網路爬蟲】Python維基百科網頁抓取（BeautifulSoup+Urllib2）

引言：從網路提取資料的需求和重要性正在變得越來越迫切。每隔幾個星期，我都會發現自己需要從網路中提取資料。例如，上週我們正在考慮建立一個關於網際網路上可用的各種資料科學課程的熱度和情緒指數。這不僅需要找到新的課程，而且還要抓住網路的評論，然後在

Python+Requests安裝及抓取網頁原始碼中文亂碼問題的解決

剛開始自學Python課程，學習到自制單執行緒小爬蟲，利用pip install requests命令安裝Python的Requests庫（自備梯子，注意如果安裝了不同Python版本的話記得先進入對應版本的pip目錄）。安裝完後在IDE中就可以呼叫Requ

Python中使用PhantomJS抓取Javascript網頁資料

有些網頁不是靜態載入的，而是通過javascirpt函式動態載入網頁，比如下面這個網頁，表格中的看漲合約和看跌合約的資料都是通過javascirpt函式從後臺載入。僅僅使用beautifulsoup並不能抓到這個表格中的資料。查詢資料，發現可以使用P

如何用Python，C#等語言去實現抓取靜態網頁+抓取動態網頁+模擬登陸網站

轉自：背景在網路，網頁，網站處理方面，很多人都遇到過，想要用某種語言（Python，C#等），去實現一些需求，常見的有這幾大類：想要從某靜態網頁中，提取某些內容想要抓取某些動態網頁中的某些內容想要模擬登陸某個網站對於這類需求，其基本的背後邏輯，都是相

Python 三種網頁抓取方法

相關推薦