1. 程式人生 > >bs4.BeautifulSoup的基礎用法匯入

bs4.BeautifulSoup的基礎用法匯入

匯入模組

    from bs4 import BeautifulSoup

    soup = BeautifulSoup(html_doc,"html.parser")

  

下面看下常見的用法

 print(soup.a)
    # 拿到soup中的第一個a標籤



    print(soup.a.name)
    # 獲取a標籤的名稱


    print(soup.a.string)
    # 獲取a標籤的文字內容


    print(soup.a.text)
    # 獲取a標籤的文字內容


    print(soup.a["href"])
    # 獲取a標籤的href屬性的值

    print(soup.a.get("href"))
    # 查詢第一個a標籤的href的屬性

    print(soup.a.attrs)
    # 獲取a標籤的所有的屬性,返回一個字典



    print(soup.find("a"))
    # 查詢第一個a標籤


    print(soup.find_all("a"))
    # 查詢所有的a標籤


    print(soup.find_all(id="a1"))
    # 查詢所有的的id為a1的標籤


    print(soup.find_all(class_="sistex"))
    # 這裡需要注意,如果需要通過class去查詢,則需要一個下劃線


    print(soup.find_all(["a","p","br"]))
    # 查詢所有的啊標籤,p標籤和br標籤


    soup.find("a").attrs["class"] = "2b"
    # 修改某個標籤的屬性值

    del soup.find(id="a1").attrs["class"]
    # 刪除某個標籤的class屬性

  

 

    import re

    soup.find(re.compile("b"))
    # 標籤中有b這個字元的標籤


    soup.select("a.syster")
    # 這個可以放標籤選擇器

    soup.select(".syster .abcd")
    # 這個可以放標籤選擇器


    soup.find("a").decompose()
    # 從當前字串中刪除第一個a標籤,是在原位置進行刪除