資訊組織與提取
阿新 • • 發佈:2018-12-12
一、資訊標記的三種方法
資訊的標記:
標記後的資訊可形成資訊組織結構,增加資訊維度
標記後的資訊可以用於通訊、儲存或展示
標記的結構與資訊一樣具有重要的價值
標記後的資訊更利於程式理解和應用
資訊標記的三種形式:XML JSON YAML
XML:標籤
JSON :有型別的鍵值對key:value
"key ":"value "
"key":["value" ,"value" ]
"key":{“subkey":"subkey"}
YAML :無型別鍵值對key:value
縮排表示所屬關係
二、三種資訊標記的比較
XML:Internet上的資訊互動與傳遞
JSON:移動應用雲端和節點的資訊通訊,無註釋
YAML:各類系統的配置檔案,有註釋易讀
三、資訊提取的一般方法
方法一:完整解析資訊的標記形式,在提取關鍵資訊
方法二:無視標記形式,直接搜尋關鍵資訊(過程簡潔速度快,缺點:準確性)
融合方法:結合形式解析與搜尋方法,提取關鍵資訊
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('a'):
print(link.get('href'))
四、基於bs4庫的HTML查詢方法
<>.find_all(name,attrs,recursive,string,**kwargs)
返回一個列表型別,儲存查詢的結果
name:對標籤名稱的檢索字串(可以用正則表示式)(re.compile(' '))
attrs:對標籤屬性值的檢索字串,可標註屬性檢索
recursive:是否對子孫全部索引,預設True
string:<>...</>中字串區域的檢索字串
find_all拓展方法