1. 程式人生 > >信息的組織和提取

信息的組織和提取

pil del 分享 asi rec als no tag str req

1.信息的三種類型。’

1.1 XML

技術分享

技術分享

2.JSON

技術分享

技術分享

3.YAML

技術分享

技術分享

三種信息的比較:

技術分享

2.信息的提取

技術分享

import requests
r
= requests.get("http://python123.io/ws/demo.html") demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,"html.parser") # Tag

# print(soup.find_all(tag)) # NO tag for tag in soup.find_all():

string

# string
# print(soup.find_all("a").string) # 錯誤表達 print(soup.find_all("a",str)) # 錯誤表達 print(soup.find_all(str= "Basic Python")) # 錯誤表達 print(soup.find_all(string= "Basic Python")) # 正確表達 精確搜索 # [‘Basic Python‘] import re print(soup.find_all(string=re.compile("
python"))) # 正則運算 模糊搜 # [‘This is a python demo page‘, ‘The demo python introduces several python courses.‘]

others

#標簽屬性值進行,標註屬性屬性檢索
print(soup.find_all("p","course"))       #
print(soup.find_all(id="link1"))

print(soup.find_all(id="link"))                        # [] 只能精確搜索
print
(soup.find_all(id=re.compile("link"))) # 引入正則表達式進行搜索 # 是否對子孫節點進行搜索,默認為是 print(soup.find_all("a")) print(soup.find_all("a",recursive=False)) # no 對子孫節點進行搜索 # []

信息的組織和提取