使用BeautifulSoup解析HTML

阿新 • • 發佈：2018-11-19

from bs4 import BeautifulSoup
import requests
req = requests.get('http://www.iqiyi.com/')
ret = req.content.decode('utf-8')
# print(ret)

# 使用BeautifulSoup解析HTML
# soup = BeautifulSoup(ret, 'lxml')
soup = BeautifulSoup(ret, 'html.parser') #解析速度快，容錯率高
pret = soup.prettify() # 格式美化
print(pret)
body = soup.html.body
# 解析HTML
# body = soup.html.body.div.div.div.div.div.div.img
# 使用string必須保證裡面沒有子標籤
# print(body.string)
# 使用strings返回一個可迭代物件，遍歷輸出
content = soup.html.body.strings
# children
child = soup.html.body.children
print(child)
# 獲取該標籤下的所有文字
text = body.div.div.text
print(text)
# 獲取父節點、兄弟節點、前後節點
print(body.div.parent)
print(body.div.parents)

print(body.div.div.next_sibiling)

# find_all 獲取第一個元素的span標籤
print(body.find_all('span'))
print(body.find_all(['span', 'a']))
print(body.find_all(class_='title-txt', attrs={'name': 'hahah'}))

# find
print(body.find(class_='title-txt').text)
print(body.find('a')['onfocus'])
print(body.find('a').attrs['onfocus'])
# 限定查詢的數量
print(body.find_all('a', limit=2))

# url = 'http://www.runoob.com/python/python-100-examples.html'
# header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
# req = requests.get(url, headers=header)
# soup = BeautifulSoup(req.content.decode('utf-8'), 'html.parser')
# print(soup)
# content = soup.find(id='content').ul.find_all('a')
# for i in content:
#     print(i['href'])

# css選擇器
# 1.通過標籤名查詢
print(soup.select('a'))
print(soup.select('#adClick'))
# 2.組合獲取
# 前一個是父元素的類選擇器，後一個是子元素的類選擇器
print(soup.select('.nav-list-item .nav-list-link'))
# 3.獲取屬性值
for i in soup.select('.nav-list-item .nav-list-link'):
    print(i['rseat'])

Python3.x的BeautifulSoup解析html常用函數

head .text software 20M 轉碼 second dal 列表條件 Python3.x的BeautifulSoup解析html常用函數 1，初始化： soup = BeautifulSoup(html) # html為html源代碼字符串，type(h

使用BeautifulSoup解析HTML

from bs4 import BeautifulSoup import requests req = requests.get('http://www.iqiyi.com/') ret = req.content.decode('utf-8') # print(ret) # 使用Beautifu

beautifulsoup 解析html方法

用BeautifulSoup 解析html和xml字串物件引數說明例項： #!/usr/bin/python # -*- coding: UTF-8 -*- from bs4 import BeautifulSoup import re #待分析字串 html_doc = """

python爬蟲學習筆記-使用BeautifulSoup解析html

之前抓取豆瓣圖書Top250的時候，獲取內容使用的方法是正則表示式匹配，看上去是一種比較簡潔的方法，但問題在於，正則表示式的編寫必須非常細心，一旦出了任何小問題，就會導致得不到想要的結果。熟悉html的話，不難想到可以利用節點之間的結構和層級關係來作區分並進一步獲取節點內想要的文字。於是B

使用BeautifulSoup解析html入門

最近一直需要接觸爬蟲，爬蟲得到的頁面資料需要進一步的處理才能夠轉化為我們可以使用的資料，在這裡今天學習的是BeautifulSoup這個python的第三方的庫，這是一款很優秀的產品，可以很好地處理html檔案，網上一搜一大堆的資源，今天的學習內容主要是依據網上一篇超級詳

python 極好用的解析 html 標簽的模塊 - BeautifulSoup

圖片 baidu base ... value data 取反 lin tex 　　記錄下各種使用姿態　　測試的 html 代碼： <html> <head> <title>Test</t

通過使用jsoup解析html,繪畫表格生成execl文件

num group wid 字符 for format 格式 colspan tables 1.獲取文件或者字符設置繪畫表格字符編碼 //得到Document並且設置編碼格式 public static Document getDoc(String fileNam

python 解析html網頁

class find() [] index file 字符 .com 查找 cto pyquery庫是jQuery的Python實現，可以用於解析HTML網頁內容，使用方法：代碼如下: from pyquery import PyQuery as pq 1、可加載一段H

Android解析HTML網頁數據第一個方法Jsoup（一）

原生日誌 href attr mage connect auto htm baidu 最近發現一些無聊的東西，就是抓取網頁上的數據，然後使用安卓原生代碼顯示出來，或者說借用網頁數據，用自定義的View顯示。借助jsoup-1.10.2.jar庫，獲取並解析數據。（Jso

jericho解析html

jericho解析html1.導入jar包2.實現源代碼package com.zhishang.lucene; import net.htmlparser.jericho.Element; import net.htmlparser.jericho.HTMLElementName; import net.

使用C#和HtmlAgilityPack解析HTML

load() 需要有一個 Coding -c href .net tar doc 　　近期，有一個需求，需要解析HTML頁面，讀取一些需要的數據後，插入本地數據庫。我知道可以通過正則表達式實現，然而正則表達式之於我，就像匯編語言之於我，一樣。我知道它是幹什麽的，我也知道它

Beautiful Soup 解析html表格示例

decode rip erro bs4 import bsp exe port pdf from bs4 import BeautifulSoup import urllib.request doc = urllib.request.urlopen(‘http://www

php解析html類庫simple_html_dom

響應過多 echo 記得正則下載 int curl sse 下載地址：https://github.com/samacs/simple_html_dom解析器不僅僅只是幫助我們驗證html文檔；更能解析不符合W3C標準的html文檔。它使用了類似jQuery的元素選擇

關於瀏覽器解析html全過程詳解

col 頁面 def 動態 lib href web 圖片使用本人web前端菜鳥一枚，第一次在這裏發博客梳理知識，知識都是從各地方查閱引用以及自己的理解得來，有什麽錯誤的地方歡迎指正。 DOM文檔通常加載的步驟： 1.解析HTML結構。 2.加載外部腳本和樣式表文

Java解析html頁面,獲取想要的元素

parse tails src www 標準 pro 1.8 com 9.png 背景:通過接口訪問數據，獲取的內容是個標準的html格式，使用jsoup的方式獲取頁面元素值先推薦比較好的博客：http://www.open-open.com/jsoup/、單個案例比較

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

微信小程序解析html

tex ima padding add 加載 abi tps 項目目錄 databind 1.下載wxParse：https://github.com/icindy/wxParse並拷貝到項目目錄下與pages同級即可2.在app.wxss全局樣式頭部引入wxParse.w

微信小程序使用wxParse解析html

樣式新聞 hub req efi 上下文件中 div github上轉:http://www.jianshu.com/p/3de027555e77 最近項目上遇到在微信小程序裏需要顯示新聞內容，新聞內容是通過接口讀取的服務器中的富文本內容，是html格式的，小程序默認

C# 網絡爬蟲利器之Html Agility Pack如何快速實現解析Html

mlp get 設計 navig send 介紹 sca 元素對象簡介　　現在越來越多的場景需要我們使用網絡爬蟲，抓取相關數據便於我們使用，今天我們要講的主角Html Agility Pack是在爬取的過程當中，能夠高效的解析我們抓取到的html數據。優勢　　在.

微信小程序WxParse解析html代碼

.com on() 需要文件夾 line div con jpg cnblogs 小程序本身並不太支持html代碼，比如html的img、span、p這個時候改這麽辦呢？需要用到一個小插件WxParse來實現。一：下載：https://github.com/icin

使用BeautifulSoup解析HTML

相關推薦