爬蟲-基於bs4庫的HTML內容查找方法

阿新 • • 發佈：2018-03-25

簽名正則化 all 擴展 rev recursive title 參數 pre

bs4有一個find_all(name,attrs,recursive,string,**kwargs)方法，返回一個列表類型，存儲查找的結果

name 對標簽名稱的檢索字符串

attrs 對標簽屬性值的檢索字符串，可標註屬性檢索，可查找某標簽中是否含有特定的字符串

recursive 是否對子孫全部檢索，默認True

string <>...</>中字符串區域的檢索字符串

舉例說明：

name

soup.find_all(‘a‘)#返回a標簽的內容
soup.find_all([‘a‘,‘b‘])#返回a和b標簽的內容

for tag in soup.find_all(True):# 
打印文檔中的所有標簽名字
    print(tag.name)
‘‘‘
返回
html
head
title
body
p
b
p
a
a
‘‘‘
#使用正則化後：
import re#如果我們只想得到以b開頭的標簽，n那麽我們需要正則表達式，re是相應的庫
for tag in soup.find_all(re.compile(‘b‘)):
    print(tag.name)
#返回 body b

attrs:

soup.find_all(‘p‘,‘course‘)#查找p標簽中包含‘course‘的信息

soup.find_all(id=‘link1‘)
‘‘‘返回 [<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>]
 
‘‘‘
soup.find_all(‘link‘)#返回[]

import re
soup.find_all(id=re.compile(‘link‘))#利用正則表達式查找包含link的標簽內容
‘‘‘
[<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>,
 <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>]
 
‘‘‘

recursive:

soup.find_all(‘a‘,recursive=False)
#返回[]表明兒子節點上沒有a標簽

string:

soup.find_all(string=‘Basic Python‘)
#[‘Basic Python‘]

import re
soup.find_all(string=re.compile(‘python‘))#所有在字符串中出現Python的字符串檢索
‘‘‘
[‘This is a python demo page‘,
 ‘The demo python introduces several python courses.‘]
‘‘‘

另外，我們可以使用

<tag>(..)等價於<tag>.find_all(..)

soup(..)等價於soup.find_all(..)

find的擴展方法

方法	說明
<>.find()	搜索切只返回一個結果，字符串類型，同find_all()參數
<>.find_parents()	在先輩節點中搜索，返回列表類型，同find_all()參數
<>.find_parent()	在先輩節點中返回一個結果，同上
<>.find_next_siblings()	在後續平行節點中搜索，同上
<>.find_next_sibling()	在後續節點中返回一個結果，同上
<>.find_previous_siblings()	在前序平行節點中搜索，同上
<>.find_previous_sibling()	在前序平行節點中返回一個結果，同上

爬蟲-基於bs4庫的HTML內容查找方法

簽名正則化 all 擴展 rev recursive title 參數 pre bs4有一個find_all(name,attrs,recursive,string,**kwargs)方法，返回一個列表類型，存儲查找的結果 name 對標簽名稱的檢索字符串 attrs 對

基於bs4庫的HTML內容查找方法和HTML格式化和編碼

檢索 mage rec ive string ngs info TP 正則表達式 bs4庫的prettify()方法：將某一個標簽打印：對於中文的HTML代碼，也可以直接打印：

爬蟲：基於bs4庫的html內容查詢方法

<>.find_all(name,attrs,recursive,string,**kwargs) 返回一個列表型別，儲存查詢的結果。 name:對標籤名稱的檢索字串 attrs:對標籤屬性值得檢索字串，可標註屬性檢索 recursive:是對子孫全部檢索，預設Tru

Python——BeautifulSoup庫（二）——基於bs4庫的HTML內容遍歷方法

標籤樹的下行遍歷：可以用len（）函式檢索兒子節點的數量：len(soup.body.contents)用for in 遍歷：標籤樹的上行遍歷：標籤樹的平行遍歷：平行遍歷條件：同一個父親遍歷：總結：

java 調用庫文件錯誤查找方法

read wan dir jin archive ctr object str doc 第一步首先找到 backtrace:keyword，然後找到都應的庫文件出錯的地方 pc 0000088b /system/lib/libNDK_04.so (SayHello+

文件內容查找(一)grep正則表達式

linux文件功能：輸入文件的每一行中查找字符串。並把匹配的行打印出來。grep的工作方式是這樣的，它在一個或多個文件中搜索字符串模板。如果模板包括空格，則必須被引用，模板後的所有字符串被看作文件名。搜索的結果被送到屏幕，不影響原文件內容。grep可用於shell腳本，因為grep通過返回一個狀態值來說明搜索

JavaScript 通過文本內容查找請求

gre cal 監聽 sbo post trigge data efi ini (function () { var common = (function () { var arr = []; var getAllRespon

linux下的find文件查找命令與grep文件內容查找命令

option 計數 user 用戶 org emp find命令 gpo .html 在使用linux時，經常需要進行文件查找。其中查找的命令主要有find和grep。兩個命令是有區的。　　區別：(1)find命令是根據文件的屬性進行查找，如文件名，文件大小，所有者，所屬

linux幾種常見的文件內容查找和替換命令

include AS 而不是文件中 In 所有 type 包含中間 1、vi命令下的查找和替換 1.1 vi下的查找 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字

使用find根據文件內容查找文件名

soft find指令匹配 pan -name 表達式 {} -type 塊設備 find命令用法：語法： 1 find (選項) (參數) 常用選項： 1 -exec<執行命令>: 假設find指令的回傳值為True,就執行該指令; 2 -l

TK可視化之文件內容查找（升級篇）

基礎 bind ack 用戶 taf 按鈕 column 列表 win 升級為帶有選擇框分三種查看格式一種是表格查看一種是文本查看一種是列表 1.列表查看類 # listbox 顯示數據 import tkinter class ListShowData:

VBA 根據Find方法根據特定內容查找單元格

chsh shee sub 完全匹配 dir 語法 mat png img http://club.excelhome.net/thread-940744-1-1.html 2. Find方法的語法[語法]<單元格區域>.Find (What，[Aft

python爬蟲實現帶附件+html內容以及圖片的郵件傳送

# -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf8') import smtplib import email from email.mime.text import

python實現目錄中制定內容查找

析構函數 exists del pla lse content sel 遍歷文件 start #【函數實現代碼】---------------------------------------------------------------------------------

jq上下級元素查找方法

指定 children 指定元素 elf and find 上下級 ldr 元素 1。parent([expr]) 獲取指定元素的所有父級元素 2。next([expr]) 獲取指定元素的下一個同級元素 3。nextAll([expr]) 獲取指定元素後面的所有同級元素 4

JQuery的父、子、兄弟節點查找方法

all bsp 集合 val 直接對象 fin 部分篩選 jQuery.parent(expr) //找父元素 jQuery.parents(expr) //找到所有祖先元素，不限於父元素 jQuery.children(expr)

Spring Boot配置文件規則以及使用方法官方文檔查找以及Spring項目的官方文檔查找方法

lan 屬於 tps pri ati html 查詢為什麽發現比如要使用Spring Boot實現一個功能，最直接的方式是Google，但是往往搜索出來的都比較亂，關鍵是亂在不同的版本上，比如1.x版本和2.x版本的配置是不一樣的。最明顯區別是在使用Thymeleaf

【小松教你手遊開發】【unity實用技能】unity性能問題查找方法

無這次先說一下mono內存的性能問題查找方法mono主要是代碼問題，各種解決方案在其他地方會講到，首先就是解決每個尖峰，這個會導致gc，mono堆內存申請等問題。 1.先用cube來測手機上跑一局看看數據可以看到在這裏申請了內存，可以看到。這時候首先有個向下的尖峰，這個是執行了一次gc。然後mono發現，

jQuery中常用的元素查找方法總結

form select checkbox disabled 聯合節點 id屬性 anim area $("#myELement") 選擇id值等於myElement的元素，id值不能重復在文檔中只能有一個id值是myElement所以得到的是唯一的元素 $("div")

springmvc-查找方法學習筆記

springmvc 查找方法學習筆記 import javax.servlet.http.HttpSession; import org.springframework.stereotype.Controller; import org.springframework.ui.Model

爬蟲-基於bs4庫的HTML內容查找方法

相關推薦