python 爬蟲提取文字之BeautifulSoup詳細用法

阿新 • • 發佈：2019-02-16

提取網頁內容四大基本方法之

2.beautifulsoup的使用 bs4模組

準備程式碼資訊，用來練習獲取內容:

from bs4 import BeautifulSoup
#準備程式碼資訊，用來練習獲取內容
html ='''
<html>
<head><title>The Dormouse's story</title></head>  
<body>  
<h1><b>123456</b></h1>
<p class="title" name="dromouse">
    <b>The Dormouse's story</b>
    aaaaa
</p> 
<p class="title" name="dromouse" title='new'><b>The Dormouse's story</b>a</p>   
<p class="story">Once upon a time there were three little sisters; and their names were  
    <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,  
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and  
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    <a href="http://example.com/tillie" class="siterr" id="link4">Tillie</a>;  
    <a href="http://example.com/tillie" class="siterr" id="link5">Tillie</a>;  
    and they lived at the bottom of a well.
</p>  
<p class="story">...</p>
<ul id="ulone">
    <li>01</li>
    <li>02</li>
    <li>03</li>
    <li>04</li>
    <li>05</li>
</ul>
<div class='div11'>
    <ul id="ultwo">
        <li>0001</li>
        <li>0002</li>
        <li>0003</li>
        <li>0004</li>
        <li>0005</li>
    </ul>
</div>
</body> 
</html>
'''

1.得到beautifulsoup物件

soup = BeautifulSoup(html,'html.parser')  #選擇解析器

2.獲取內容

(1)獲取標題物件

print(soup.title)

獲取標題文字字串:

print(soup.title.string)  #返回迭代器，出現換行就找不到了
print(soup.title.text)
print(soup.title.get_text())
title = soup.find('title').get_text()
print(title)

通過上下級關係獲取物件

print(soup.title.parent) 

print(soup.title.child)     
print(soup.title.children)

（2）獲取第一個p標籤

print(soup.p.get_text())
print(soup.find('p').text)
#獲取p的子標籤們   (空行也看成了一個children)
print(soup.p.children)
for i,echo in enumerate(soup.p.children):
    print(i,echo)

（3）獲取標籤的屬性

#只能找到第一個a標籤
print('1',soup.a)
print('2',soup.a.name) 

#應該這樣寫
print(soup.a.attrs)
print(soup.a.attrs['href'])
print(soup.a.attrs['id'])
print(soup.a.attrs['class'][0]) #獲得的是一個列表，可以用下標查詢

（4）獲取多個

print(soup.find('p')) #獲取一個
print(soup.find_all('p'))  #獲取soup內的p標籤  返回一個列表

（5）多層查詢
find_all查詢返回的是列表，使用下標尋找想要的內容

print(soup.find_all('ul'))
print(soup.find_all('ul')[0].find_all('li'))

(6)通過指定的屬性，獲取物件

print(soup.find(id='ulone'))  #單個物件
print(soup.find('ul',id='ulone'))
print(soup.find_all('ul',id='ulone'))   #可以使用下標查詢

class是關鍵字要這麼寫class_

print('class1',soup.find_all('p',class_='title'))
print('class2',soup.find_all('p',attrs={'class':'title'})) #更通用
print('class3',soup.find_all('p',attrs={'class':'title','title':'new'})) #多條件

用函式作為引數，獲取元素

def judgeTilte1(t):
    if t=='title':
        return True
print(soup.find_all(class_=judgeTilte1))

判斷長度

import re  #正則表示式
reg = re.compile("sis")
def judgeTilte2(t):
    #返回長度為6，且包含'sis'的t引數
    return len(str(t))==6 and bool(re.search(reg,t))
print(soup.find_all(class_=judgeTilte2))

#獲取文字內容

# <p class="title" name="dromouse">
#     <b>The Dormouse's story</b>
#     aaaaa
# </p>
print(soup.find('p').text)
print(soup.find('p').string)  #返回迭代器，出現換行就找不到了<b>，
print(soup.find('p').get_text())

獲取可以加limit的，限制訪問個數

print(soup.find_all('a',limit=2))

recursive = True 尋找子孫；recursive = False只找子

print(soup.find_all('body')[0].find_all('ul',recursive = False))

python 爬蟲提取文字之BeautifulSoup詳細用法

提取網頁內容四大基本方法之 2.beautifulsoup的使用 bs4模組準備程式碼資訊，用來練習獲取內容: from bs4 import BeautifulSoup #準備程式碼資訊，用來

Python爬蟲利器五之Selenium的用法

Selenium 是什麼？一句話，自動化測試工具。它支援各種瀏覽器，包括 Chrome，Safari，Firefox 等主流介面式瀏覽器，如果你在這些瀏覽器裡面安裝一個 Selenium 的外掛，那麼便可以方便地實現Web介面的測試。換句話說叫 Seleni

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

Python爬蟲入門四之Urllib庫的高階用法

1.設定Headers 有些網站不會同意程式直接用上面的方式進行訪問，如果識別有問題，那麼站點根本不會響應，所以為了完全模擬瀏覽器的工作，我們需要設定一些Headers 的屬性。首先，開啟我們的瀏覽器，除錯瀏覽器F12，我用的是Chrome，開啟網路監聽，示意如下，

Python爬蟲---提取資料（2）--beautifulsoup

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間. 文件地址:http://beaut

Python爬蟲利器一之Requests庫的用法

前言之前我們用了 urllib 庫，這個作為入門的工具還是不錯的，對了解一些爬蟲的基本理念，掌握爬蟲爬取的流程有所幫助。入門之後，我們就需要學習一些更加高階的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法。注：Py

Python爬蟲入門一之綜述

復用智能實現進一步 -a web 蜘蛛 urllib 機器首先爬蟲是什麽？網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。根據我的經驗，要學習Python爬蟲，我們要

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

6.Python爬蟲入門六之Cookie的使用

expires cookielib spa result hat 即使 card rec 其他大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麽接下來我們一起來看一下Cookie的使用。為什麽要使用Cookie呢？ Cookie，指某些網站為了辨別用戶身份、進行se

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

python爬蟲模塊之URL管理器

ini app 重要但是 visit return 管理器 queue init URL管理器模塊一般是用來維護爬取的url和未爬取的url已經新添加的url的，如果隊列中已經存在了當前爬取的url了就不需要再重復爬取了，另外防止造成一個死循環。舉個例子我爬www.b

python爬蟲模塊之HTML下載模塊

com cond 判斷 session eth mock 表示 += HA HTML下載模塊該模塊主要是根據提供的url進行下載對應url的網頁內容。使用模塊requets-HTML，加入重試邏輯以及設定最大重試次數，同時限制訪問時間，防止長時間未響應造成程序假死現象。

python爬蟲模塊之HTML解析模塊

str 修改 ini lxml 轉換 def imp dom對象 list 這個就比較簡單了沒有什麽好強調的，如果返回的json 就是直接按照鍵值取，如果是網頁就是用lxml模塊的html進行xpath解析。 from lxml import html import js

Python爬蟲學習筆記之微信宮格驗證碼的識別(存在問題)

依次返回結果 ptc 接下來 clas 軌跡 self top http 本節我們將介紹新浪微博宮格驗證碼的識別。微博宮格驗證碼是一種新型交互式驗證碼，每個宮格之間會有一條指示連線，指示了應該的滑動軌跡。我們要按照滑動軌跡依次從起始宮格滑動到終止宮格，才可以完成驗證，

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

自學python爬蟲（五）BeautifulSoup庫的介紹

一、概念 BeautifulSoup是靈活又方便的網頁解析庫，處理高效。支援多種直譯器。利用它可以不用編寫正則表示式即可方便地實現網頁資訊的提取。二、解析庫三、例項講解下面用到的程式碼 html = """<html> <head>

python爬蟲第六篇--BeautifulSoup庫

BeautifulSoup庫簡介靈活方便的網頁解析庫，處理高效，支援多種解析器利用它不用編寫正則表示式即可方便地實現網頁資訊的爬取 MacOS安裝：pip3 install BeautifulSoup4(已經更新到4了) soup = B

python 爬蟲訪問網頁之request與requests：

標籤（空格分隔）： 9.23 一、訪問獲取網頁的基本方法：準備頭部和代理 user_agent = [ #準備頭部，列表 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) Apple

python 爬蟲正則表示式的詳細使用

提取網頁內容四大基本方法之 1.正則表示式 re模組表示式說明 [abc] abc中的一個 [a-z] a-z中的一個 [0-9] 0-9中的一個 [af0-9] a-f,0-9中的一個 [ab][cd][12] 三個中分

Python爬蟲框架 scrapy之xpath選擇器 css選擇器

文章目錄一、xpath 1、節點選擇二、 css css選擇三、xpath函式操作 1

python 爬蟲 提取文字之BeautifulSoup詳細用法

提取 網頁內容 四大基本方法之

2.beautifulsoup的使用 bs4模組

1.得到beautifulsoup物件

2.獲取內容

相關推薦

python 爬蟲提取文字之BeautifulSoup詳細用法

提取網頁內容四大基本方法之