信息的組織和提取
阿新 • • 發佈:2017-07-23
pil del 分享 asi rec als no tag str req
1.信息的三種類型。’
1.1 XML
2.JSON
3.YAML
三種信息的比較:
2.信息的提取
import requests
r = requests.get("http://python123.io/ws/demo.html") demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,"html.parser") # Tag
# print(soup.find_all(tag)) # NO tag for tag in soup.find_all():
string
# string# print(soup.find_all("a").string) # 錯誤表達 print(soup.find_all("a",str)) # 錯誤表達 print(soup.find_all(str= "Basic Python")) # 錯誤表達 print(soup.find_all(string= "Basic Python")) # 正確表達 精確搜索 # [‘Basic Python‘] import re print(soup.find_all(string=re.compile("python"))) # 正則運算 模糊搜 # [‘This is a python demo page‘, ‘The demo python introduces several python courses.‘]
others
# 以標簽屬性值進行,標註屬性屬性檢索 print(soup.find_all("p","course")) # print(soup.find_all(id="link1")) print(soup.find_all(id="link")) # [] 只能精確搜索 print(soup.find_all(id=re.compile("link"))) # 引入正則表達式進行搜索 # 是否對子孫節點進行搜索,默認為是 print(soup.find_all("a")) print(soup.find_all("a",recursive=False)) # no 對子孫節點進行搜索 # []
信息的組織和提取