1. 程式人生 > 實用技巧 >python去除html標籤及標籤裡面的內容

python去除html標籤及標籤裡面的內容

使用正則表示式去除htm標籤,只取出標籤裡面的文字內容

>>> import re
>>> 
>>> html='<p class="txt" node-type="feed_list_content" nick-name="人民日報">\n                    【<a href="http://s.weibo.com/weibo?q=" target="_blank">#13個求職新方向#</a>!有你心動的職業嗎<img src="//img.t.sinajs.cn/t4/appstyle/expression/ext/normal/aa/2018new_bingbujiandan_org.png" title="[並不簡單]" alt="[並不簡單]" class="face">】近日,人社部、市場監管總局、統計局聯合釋出13個新職業,既有現在流行的人工智慧、<em class="s-color-red">大</em><em class="s-color-red">資料</em>、雲端計算、物聯網等工程技術人員,也有電子競技員、無人機駕駛員等新穎工種…你心動了嗎?哪些學校開設了相關專業值得關注?戳圖瞭解↓↓轉給正在求學的TA!                </p>'
>>> 
>>> 
>>> pre = re.compile('>(.*?)<')
>>> text= ''.join(pre.findall(html))
>>> print(text)
#13個求職新方向#!有你心動的職業嗎】近日,人社部、市場監管總局、統計局聯合釋出13個新職業,既有現在流行的人工智慧、大資料、雲端計算、物聯網等工程技術人員,也有電子競技員、無人機駕駛員等新穎工種…你心動了嗎?哪些學校開設了相關專業值得關注?戳圖瞭解↓↓轉給正在求學的TA!