1. 程式人生 > >資訊組織與提取

資訊組織與提取

一、資訊標記的三種方法

資訊的標記:

標記後的資訊可形成資訊組織結構,增加資訊維度

標記後的資訊可以用於通訊、儲存或展示

標記的結構與資訊一樣具有重要的價值

標記後的資訊更利於程式理解和應用

資訊標記的三種形式:XML JSON YAML

XML:標籤

JSON :有型別的鍵值對key:value

"key ":"value "

"key":["value" ,"value" ]

"key":{“subkey":"subkey"}

YAML :無型別鍵值對key:value

縮排表示所屬關係

二、三種資訊標記的比較

XML:Internet上的資訊互動與傳遞

JSON:移動應用雲端和節點的資訊通訊,無註釋

YAML:各類系統的配置檔案,有註釋易讀

三、資訊提取的一般方法

方法一:完整解析資訊的標記形式,在提取關鍵資訊

方法二:無視標記形式,直接搜尋關鍵資訊(過程簡潔速度快,缺點:準確性)

融合方法:結合形式解析與搜尋方法,提取關鍵資訊

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,"html.parser")

for link in soup.find_all('a'):

print(link.get('href'))

四、基於bs4庫的HTML查詢方法

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一個列表型別,儲存查詢的結果

name:對標籤名稱的檢索字串(可以用正則表示式)(re.compile(' '))

attrs:對標籤屬性值的檢索字串,可標註屬性檢索

recursive:是否對子孫全部索引,預設True

string:<>...</>中字串區域的檢索字串

find_all拓展方法