爬去資料進行處理
阿新 • • 發佈:2018-12-12
import re from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://item.jd.com/7321644.html?jd_pop=60331dce-5caa-4058-9c91-d27c49657ff0#product-detail") soup = BeautifulSoup(html) name_list = soup.findAll("ul", {"class": "parameter2 p-parameter-list"}) # .findAll(tagName, tagAttributes) for name in name_list: # print(name.get_text()) # .get_text() 會把你正在處理的 HTML 文件中所有的標籤都清除,然後返回一個只包含文字的字串。\ text1 = re.sub(".*:", "", name.get_text()) # 正則替換":"前面的內容,注意“:”是中文還是英文。 # print(text1) lists1 = text1.split("\n") # 根據換行符轉成列表 # del lists1[0] text2 = re.sub(":.*", "", name.get_text()) # print(text2) lists2 = text2.split("\n") # del lists2[0] dicts = dict(zip(lists2, lists1)) # 兩個列表轉成一個字典 print(dicts)