1. 程式人生 > >網路爬蟲_資訊標記與提取(學習筆記)

網路爬蟲_資訊標記與提取(學習筆記)

慕課課程筆記

目錄

2.1 方法

2.2 例項

4. 小結

1. 資訊標記

1.1 資訊標記

  1. 標記後的資訊可形成資訊組織結構,增加了資訊維度
  2. 標記的結構與資訊一樣具有重要價值
  3. 標記後的資訊可用於通訊、儲存或展示
  4. 標記後的資訊更利於程式理解和運用

1.2 HTML資訊標記

1.3 資訊標記三種形式

1.3.1 XML

1.3.2 JSON

有型別的鍵值對 key:value

鍵值對巢狀

1.3.3 YAML

無型別鍵值對,通過縮排表達所屬關係

-表達並列關係        |整塊介紹          #表示註釋

1.4  三種資訊比較

1.4.1 三種例項

1.4.2 比較

XML

最早的通用資訊標記語言,可擴充套件性好,但繁瑣;Internet上的資訊互動與傳遞;

JSON

資訊有型別,適合程式處理(js),較XML簡潔;移動應用雲端和節點的資訊通訊,無註釋;

YAML

資訊無型別,文字資訊比例最高,可讀性好;各類系統的配置檔案,有註釋易讀;

2. 資訊提取

2.1 方法

2.2 例項

3. 基於bs4庫HTML資訊提取

import requests
from bs4 import BeautifulSoup

r = requests.get("http://python123.io/ws/demo.html")
demo = r.text

3.1 find_all()方法

3.2 find_all()方法中各引數

3.2.1 name

對標籤名稱的檢索字串 

3.2.2 attrs

 對標籤屬性值的檢索字串,可標註屬性檢索

3.2.3 recursive:

是否對子孫全部檢索,預設True

3.2.4 string:

<>…</>中字串區域的檢索字串

3.2 擴充套件方法

4. 小結