【教程】BeautifulSoup中使用正則表示式去搜索多種可能的關鍵字
【背景】
折騰過基本的BeautifulSoup的人,知道,可以通過指定對應的name和attrs去搜索,特定的名字和屬性,以找到所需要的部分的html程式碼。
但是,有時候,會遇到,對於要處理的內容中,其name或attr的值,有多種可能,尤其是符合某一規律,此時,就無法寫成固定的值了。
所以,就可以藉助正則表示式來解決此問題。
【舉例說明】
比如,原先教程:
中的html:
<div class="icon_col">
<h1 class="h1user">crifan</h1>
</div>
對應的BeautifulSoup程式碼如下:
h1userSoup = soup.find(name="h1", attrs={"class":"h1user"});
而如果html是這種:
<div class="icon_col">
<h1 class="h1user">crifan</h1>
<h1 class="h1user test1">crifan 123</h1>
<h1 class="h1user test2">crifan 456</h1>
</div>
那麼想要一次性地找到所有的,符合條件的h1的部分的程式碼,則之前的寫法,就只能找到單個的class="h1user"的部分,剩下的兩個
class="h1user test1"
和
class="h1user test2"
就找不到了。
那麼,此時,就可以用到,BeautifulSoup中非常好用的,非常強大的功能:
attrs中支援正則表示式的寫法
了。
就可以寫成:
h1userSoupList = soup.findAll(name="h1", attrs={"class":re.compile(r"h1user(\s\w+)?")});
就可以一次性地,找到:
class="h1user" class="h1user test2" |
了。