1. 程式人生 > >如何快速去掉爬蟲結果中的標籤

如何快速去掉爬蟲結果中的標籤

from w3lib.html import remove_tags

def go_remove_(value):
        # 移除標籤
        # content = remove_tags(value)
        # 移除漢子
        # content=re.sub(r'[\u4e00-\u9fa5]{1,}', '', value)
        i = re.sub(r'<em>.*$', "", value)
        i = re.sub(r'[\u4e00-\u9fa5]+', "", i)
        i = re.sub(r'。.$', "", i)
        i = re.sub(r'。.*', "", i)
        # 移除空格 換行
        return re.sub(r'[\t\r\n\s]', '', i)



def go_remove_tag(value):
    # 移除標籤
    content = remove_tags(value)
    # 移除空格 換行
    return re.sub(r'[\t\r\n\s]', '', content)