beautifulsoup 解析html方法

阿新 • • 發佈：2018-12-01

用BeautifulSoup 解析html和xml字串
在這裡插入圖片描述
物件引數說明
例項：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import re

#待分析字串
html_doc = """
<html>
<head>
    <title>The Dormouse's story</title>
</head>
<body>
<p class="title aq">
    <b>
        The Dormouse's story
    </b>
</p>

<p class="story">Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> 
    and
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    and they lived at the bottom of a well.
</p>

<p class="story">...</p>
""" 



# html字串建立BeautifulSoup物件
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

#輸出第一個 title 標籤
print soup.title

#輸出第一個 title 標籤的標籤名稱
print soup.title.name

#輸出第一個 title 標籤的包含內容
print soup.title.string

#輸出第一個 title 標籤的父標籤的標籤名稱
print soup.title.parent.name

#輸出第一個  p 標籤
print soup. 
p

#輸出第一個  p 標籤的 class 屬性內容
print soup.p['class']

#輸出第一個  a 標籤的  href 屬性內容
print soup.a['href']
'''
soup的屬性可以被新增,刪除或修改. 再說一次, soup的屬性操作方法與字典一樣
'''
#修改第一個 a 標籤的href屬性為 http://www.baidu.com/
soup.a['href'] = 'http://www.baidu.com/'

#給第一個 a 標籤新增 name 屬性
soup.a['name'] = u'百度'

#刪除第一個 a 標籤的 class 屬性為
del soup. 
a['class']

##輸出第一個  p 標籤的所有子節點
print soup.p.contents

#輸出第一個  a 標籤
print soup.a

#輸出所有的  a 標籤，以列表形式顯示
print soup.find_all('a')

#輸出第一個 id 屬性等於  link3 的  a 標籤
print soup.find(id="link3")

#獲取所有文字內容
print(soup.get_text())

#輸出第一個  a 標籤的所有屬性資訊
print soup.a.attrs


for link in soup.find_all('a'):
    #獲取 link 的  href 屬性內容
    print(link.get('href'))

#對soup.p的子節點進行迴圈輸出    
for child in soup.p.children:
    print(child)

#正則匹配，名字中帶有b的標籤
for tag in soup.find_all(re.compile("b")):
    print(tag.name)

爬蟲設計思路： 在這裡插入圖片描述
詳細手冊：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

beautifulsoup 解析html方法

用BeautifulSoup 解析html和xml字串物件引數說明例項： #!/usr/bin/python # -*- coding: UTF-8 -*- from bs4 import BeautifulSoup import re #待分析字串 html_doc = """

Python3.x的BeautifulSoup解析html常用函數

head .text software 20M 轉碼 second dal 列表條件 Python3.x的BeautifulSoup解析html常用函數 1，初始化： soup = BeautifulSoup(html) # html為html源代碼字符串，type(h

使用BeautifulSoup解析HTML

from bs4 import BeautifulSoup import requests req = requests.get('http://www.iqiyi.com/') ret = req.content.decode('utf-8') # print(ret) # 使用Beautifu

python爬蟲學習筆記-使用BeautifulSoup解析html

之前抓取豆瓣圖書Top250的時候，獲取內容使用的方法是正則表示式匹配，看上去是一種比較簡潔的方法，但問題在於，正則表示式的編寫必須非常細心，一旦出了任何小問題，就會導致得不到想要的結果。熟悉html的話，不難想到可以利用節點之間的結構和層級關係來作區分並進一步獲取節點內想要的文字。於是B

使用BeautifulSoup解析html入門

最近一直需要接觸爬蟲，爬蟲得到的頁面資料需要進一步的處理才能夠轉化為我們可以使用的資料，在這裡今天學習的是BeautifulSoup這個python的第三方的庫，這是一款很優秀的產品，可以很好地處理html檔案，網上一搜一大堆的資源，今天的學習內容主要是依據網上一篇超級詳

Android解析HTML網頁數據第一個方法Jsoup（一）

原生日誌 href attr mage connect auto htm baidu 最近發現一些無聊的東西，就是抓取網頁上的數據，然後使用安卓原生代碼顯示出來，或者說借用網頁數據，用自定義的View顯示。借助jsoup-1.10.2.jar庫，獲取並解析數據。（Jso

【轉載儲存】Jsoup解析html常用方法

首先我們要清楚 class的繼承關係 Document 繼承於 Element 繼承於 Node 繼承於 Object 首先我們先研究一下 Element 中的函式作用: 01 addClass(String className)

Python爬蟲解析htm時lxml的HtmlElement對象獲取和設置inner html方法

3.6 The target 接口導入模塊查找內容 XML encoding Python的lxml是一個相當強悍的解析html、XML的模塊，最新版本支持的python版本從2.6到3.6，是寫爬蟲的必備利器。它基於C語言庫libxml2 和 libxslt，進行了

介紹C#解析HTML的兩種方法

在搜尋引擎的開發中，我們需要對網頁的Html內容進行檢索，難免的就需要對Html進行解析。拆分每一個節點並且獲取節點間的內容。此文介紹兩種C#解析Html的方法。 C#解析Html的第一種方法：用System.Net.WebClient下載Web Page存到本地檔案或者String中，用

python 極好用的解析 html 標簽的模塊 - BeautifulSoup

圖片 baidu base ... value data 取反 lin tex 　　記錄下各種使用姿態　　測試的 html 代碼： <html> <head> <title>Test</t

關於利用Jsoup解析HTML中；變成非傳統空格或亂碼問題解決方法

在寫爬蟲的時候很多時候會遇到這種問題：HTML中原始碼顯示&nbsp；沒問題，但是利用Jsoup的text（）方法獲取的文字就會出現問題，一般情況是&nbsp；變成非傳統空格或者亂碼，這樣在解析的時候想切分字串會無法成功。因為&nbsp；是ISO-8

使用Jsoup解析Html == TextView顯示html圖片的方法

想要做一個看新聞的應用，類似Cnbeta客戶端的東西。大致思路如下：根據連結獲取新聞列表頁的html程式碼，然後解析，找到所有的新聞標題和新聞連結用listView顯示，當點選ListView的Item再載入相應的新聞內容。其中獲取html程式碼，可以使用如下程式碼

Jquery的text()和html()方法在li與div取值結果解析

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html

Jsoup解析HTML例項及文件方法詳解

msOfficeUtils.createNewDocument(); msOfficeUtils.insertText("測試訊息"); msOfficeUtils.copy(); msOfficeUtils.close(); msOfficeUtils.quit(); Jacob在sourceforge

通過使用jsoup解析html,繪畫表格生成execl文件

num group wid 字符 for format 格式 colspan tables 1.獲取文件或者字符設置繪畫表格字符編碼 //得到Document並且設置編碼格式 public static Document getDoc(String fileNam

python 解析html網頁

class find() [] index file 字符 .com 查找 cto pyquery庫是jQuery的Python實現，可以用於解析HTML網頁內容，使用方法：代碼如下: from pyquery import PyQuery as pq 1、可加載一段H

jQuery獲取文本節點之 text()/val()/html() 方法區別

exist clas multipl not found 個數 jquery代碼多選 sel content 在jquery中val,text,html都能取到值,或加一個參數來賦值,那麽它們有些什麽區別?下面我們來舉例說明：首先，html屬性中有兩個方法，一個有參，

jericho解析html

jericho解析html1.導入jar包2.實現源代碼package com.zhishang.lucene; import net.htmlparser.jericho.Element; import net.htmlparser.jericho.HTMLElementName; import net.

HTML方法

多重提交刷新瀏覽器歷史記錄書簽 col 超文本密碼沒有 HTTP 方法：GET 對比 POST 兩種最常用的 HTTP 方法是：GET 和 POST。什麽是 HTTP ？超文本傳輸協議（HTTP）的設計目的是保證客戶端與服務器之間的通信。 HTTP 的工

使用C#和HtmlAgilityPack解析HTML

load() 需要有一個 Coding -c href .net tar doc 　　近期，有一個需求，需要解析HTML頁面，讀取一些需要的數據後，插入本地數據庫。我知道可以通過正則表達式實現，然而正則表達式之於我，就像匯編語言之於我，一樣。我知道它是幹什麽的，我也知道它

beautifulsoup 解析html方法

相關推薦