1. 程式人生 > >爬去資料進行處理

爬去資料進行處理

import re
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("https://item.jd.com/7321644.html?jd_pop=60331dce-5caa-4058-9c91-d27c49657ff0#product-detail")
soup = BeautifulSoup(html)
name_list = soup.findAll("ul", {"class": "parameter2 p-parameter-list"})  # .findAll(tagName, tagAttributes)
for name in name_list:
    # print(name.get_text())  # .get_text() 會把你正在處理的 HTML 文件中所有的標籤都清除,然後返回一個只包含文字的字串。\
    text1 = re.sub(".*:", "", name.get_text())  # 正則替換":"前面的內容,注意“:”是中文還是英文。
    # print(text1)
    lists1 = text1.split("\n")  # 根據換行符轉成列表
    # del lists1[0]
    text2 = re.sub(":.*", "", name.get_text())
    # print(text2)
    lists2 = text2.split("\n")
    # del lists2[0]
    dicts = dict(zip(lists2, lists1))  # 兩個列表轉成一個字典
    print(dicts)