網路爬蟲之beautifulsoup

阿新 • • 發佈：2019-02-14

一個網頁的節點太多，一個個的用正則表示式去查詢不方便且不靈活。BeautifulSoup將html文件轉換成一個屬性結構，每個節點都是python物件。這樣我們就能針對每個結點進行操作。參考如下程式碼

def parse_url():

    try:

        req=urllib2.Request('http://www.xunsee.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/index.shtml')

        fd=urllib2.urlopen(req)html=BeautifulSoup(fd)except urllib2.URLError,e:

         
print e

BeautifulSoup中傳入的就是urlopen中反饋的html網頁。但是出現提示

E:\python2.7.11\python.exe E:/py_prj/test.py

E:\python2.7.11\lib\site-packages\bs4\__init__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 43 of the file E:/py_prj/test.py. To get rid of this warning, change code that looks like this:

 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))

這個提示的意思是沒有給BeautifulSoup中傳遞一個解析網頁的方式。有2中方式可以使用:html.parser以及lxml。這裡我們先用html.parser，lxml後面再講。程式碼改成如下就OK了

html=BeautifulSoup(fd,"html.parser")

在解析網頁前，我們先來看幾個概念，標籤，屬性。

比如下面的網頁結構。<ahref=”1.shtml”>第一節</a> 其中a就是標籤，裡面的href就是屬性。第一節就是標籤的內容

BeautifulSoup中查詢屬性的方法如下：

print html.meta.encode('gbk')
print html.meta.attrs

結合如下的程式碼，查詢tag為meta的元素。並列印meta的所有屬性：

得到的結果如下：

E:\python2.7.11\python.exeE:/py_prj/test.py

{u'content': u'text/html; charset=gb2312',u'http-equiv': u'Content-Type'}

如果想得到某項屬性，可以按照如下的方式：

print html.meta.attrs['content'] 輸出結果是text/html

如果我們想得到標籤的內容也就是文字怎麼辦呢，比如下面的這個方式

print html.title.string.encode('gbk') .string的功能就是得到標籤所對應的文字

但是上面的方法只能找出第一個滿足的標籤，如果網頁中有多個相同名字的標籤該如何區分呢，比如下面的這種場景：有多個span以及a的標籤

那麼就需要另外的方式來獲取。如下程式碼用find_all的方式來獲取所有標籤為a的結構並打印出來

for a in html.find_all('a'):

    print a.encode('gbk')

得到的結果如下，由於太多，只列出了其中一部分。

如果想得到這些節點的內容可以用get_text()的方法。如下：

for a in html.find_all('a'):

    print a.get_text()

如果想得到這些節點的全部屬性，則可以用下面的方法：

for a in html.find_all('a'):

    print a.attrs

如果想得到某個屬性的值，前面的a.attrs返回的是一個字典。比如下面的要獲取class屬性的值，用如下的方法

for a in html.find_all('a'):

    print a.attrs['class']

find_all方法還可以給查詢加限定值：比如想獲取如下所示的<a href=”1.shtml”>的標籤

這裡第一個引數代表標籤名字，第二引數代表屬性名

for a in html.find_all('a',href="1.shtml"):

    print a.encode('gbk')

還可以設定多個引數查詢，比如查詢form這個標籤

for a in html.find_all('form',method="post",target="_blank"):

    print a.encode('gbk')

當然在查詢裡面也可以運用正則表示式，比如re.complie(“a.*”)之類的方法

另外還可以限制查詢的數目：下面的表示式就是獲取前5條查詢結果

for a in html.find_all('a',limit=5):

    print a.attrs['class']

find家族裡面還有find_parents/find_parent查詢父節點。Find_next_siblings()/find_next_sibling()查詢下一個兄弟以及

find_previous_siblings()/find_previous_sibling()查詢前面的兄弟節點。

網路爬蟲之BeautifulSoup入門（四）

5.帶更多引數的find方法官方文件給出的find方法的引數如下：find( name , attrs , recursive , string , **kwargs )，總體來看和find_all方法的引數沒什麼不同，在這裡仍以示例的方法給出常見的使用方法

網路爬蟲之beautifulsoup

一個網頁的節點太多，一個個的用正則表示式去查詢不方便且不靈活。BeautifulSoup將html文件轉換成一個屬性結構，每個節點都是python物件。這樣我們就能針對每個結點進行操作。參考如下程式碼 def parse_url(): try:

爬蟲之BeautifulSoup， CSS

ont min 文件打開速度名稱 markup css選擇器 -1 全部結果 1. Beautiful Soup的簡介 2. Beautiful Soup 安裝可以利用 pip 或者 easy_install 來安裝，以下兩種方法均可 easy_install bea

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

爬蟲之beautifulsoup模塊

找到索引生成器上一個安裝模塊 content before con 數據一、介紹Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup

python 爬蟲之BeautifulSoup 庫的基本使用

rip data lin value 訪問 pytho 輕松 register tex import urllib2url = ‘http://www.someserver.com/cgi-bin/register.cgi‘values = {}values[‘name‘]

python爬蟲之BeautifulSoup學習

1. Beautiful Soup的簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使

爬蟲之 BeautifulSoup庫的使用

上一篇文章的正則，其實對很多人來說用起來是不方便的，加上需要記很多規則，所以用起來不是特別熟練，而這節我們提到的beautifulsoup就是一個非常強大的工具，爬蟲利器。 beautifulSoup “美味的湯，綠色的濃湯” 一個靈活又方便的網頁解析庫，處理高效，支援多種解析器。利用它就不用編

Python網路爬蟲之requests庫Scrapy爬蟲比較

requests庫Scrapy爬蟲比較相同點：都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線兩者可用性都好，文件豐富，入門簡單。兩者都沒有處理JS，提交表單，應對驗證碼等功能（可擴充套件）想爬取有驗證碼的，換需要學習別的庫知識。不同點： Scrapy,非同

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

Python網路爬蟲之極驗滑動驗證碼識別

驗證碼分析使用程式碼完成極驗驗證碼的識別，需要了解一下幾點：通過該驗證碼的識別動作為：點選並拖拽滑塊 - 滑動滑塊至缺口處 - 釋放滑鼠該驗證碼增加了機器學習來識別拖動的軌跡，即：

好好學Python，入門網路爬蟲之精華版！

Python學習網路爬蟲主要分3個大的版塊：抓取，分析，儲存。另外，比較常用的爬蟲框架Scrapy，這裡最後也詳細介紹一下。首先列舉一下本人總結的相關文章，這些覆蓋了入門網路爬蟲需要的基本概念和技巧：學習Python中有不明白推薦加

python爬蟲之BeautifulSoup解析網頁

BeautifulSoup是一個很簡單又好用的庫，不過解析速度相對比較慢，使用如下： 1，安裝 pip install bs4 （被加到了bs4中） #python3用pip3 install bs4 ，如果有許可權問題，可以試試，pip install bs4 --

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

Python網路爬蟲之抓取訂餐資訊

本文以大眾點評網為例，獲取頁面的餐館資訊，以達到練習使用python的目的。 1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):

網路爬蟲--之爬起校招資訊程式碼

記得去年10月份那會兒，正是校招高峰期，北郵人和水木上的校招資訊特別多，各種企業都在瘋狂地刷屏。於是每天我都要經常開啟北郵人和水木的招聘資訊版塊，一頁一頁地篩選我所關注的公司和職位的校招資訊，卻仍然會漏掉一些重要的校招資訊。重複的事情做久了，就有了自動化的想法。於是當

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞迴爬取進行實現（Request模組遞歸回調parse方法）。方法二：基於CrawlSpider的自動爬取進行實現（更加簡潔和高效）。今日概

【python爬蟲筆記】網路爬蟲之實戰

Unit7 re庫入門操作符說明例項 . 表示任何單個字元 [ ] 字符集，對單個字元給出取值範圍 [abc]表

網路爬蟲之beautifulsoup

相關推薦