網路爬蟲_資訊標記與提取(學習筆記)
阿新 • • 發佈:2018-12-20
慕課課程筆記
目錄
1. 資訊標記
1.1 資訊標記
- 標記後的資訊可形成資訊組織結構,增加了資訊維度
- 標記的結構與資訊一樣具有重要價值
- 標記後的資訊可用於通訊、儲存或展示
- 標記後的資訊更利於程式理解和運用
1.2 HTML資訊標記
1.3 資訊標記三種形式
1.3.1 XML
1.3.2 JSON
有型別的鍵值對 key:value
鍵值對巢狀
1.3.3 YAML
無型別鍵值對,通過縮排表達所屬關係
-表達並列關係 |整塊介紹 #表示註釋
1.4 三種資訊比較
1.4.1 三種例項
1.4.2 比較
XML
最早的通用資訊標記語言,可擴充套件性好,但繁瑣;Internet上的資訊互動與傳遞;
JSON
資訊有型別,適合程式處理(js),較XML簡潔;移動應用雲端和節點的資訊通訊,無註釋;
YAML
資訊無型別,文字資訊比例最高,可讀性好;各類系統的配置檔案,有註釋易讀;
2. 資訊提取
2.1 方法
2.2 例項
3. 基於bs4庫HTML資訊提取
import requests from bs4 import BeautifulSoup r = requests.get("http://python123.io/ws/demo.html") demo = r.text
3.1 find_all()方法
3.2 find_all()方法中各引數
3.2.1 name
對標籤名稱的檢索字串
3.2.2 attrs
對標籤屬性值的檢索字串,可標註屬性檢索
3.2.3 recursive:
是否對子孫全部檢索,預設True
3.2.4 string:
<>…</>中字串區域的檢索字串