「Python」爬蟲自然語言清洗元件 v1.0.0

阿新 • • 發佈：2018-12-11

公告：博主因使用魔理沙的掃把表達清洗，已被車萬粉拉去祭天。

設計思路

我認為從網站上爬取下來的內容要清洗的有兩大塊：通用清洗和規則清洗，換句話說就是可複用的和不可複用的。
通用清洗是每個爬蟲常見的問題，比如特殊編碼、html標籤、換行空格符等。
特殊清洗是在通用清洗的基礎上，網站結構產生的特殊問題，比如多餘的固定字元等。

通用清洗

通用清洗涵蓋以下幾個方面：

空欄位補全
篩選附件和圖片
特殊Unicode符號
HTML標籤註釋
其他字元(\r\n\t…)

通用清洗要注意順序，否則會引起不必要的麻煩

空欄位補全

優先把空內容(null/None/NaN)轉換成空字串(“”)，這樣後續String型別操作不會報出TypeError。

不同網頁間爬取下來的欄位有些微差別，也將不存在的的欄位進行了補全

篩選附件和圖片

我爬正文資料下來時是整個正文元素直接獲取的，所以也就在這裡篩選出正文中的附件和圖片

<a href="...">
<img src="...">

通過正則匹配到後判斷連結是以http還是./ /開頭,如果沒有域名則新增該站的域名

最重要的一步是對圖片連結進行清洗，如果只是提取連結的話會出現很多小圖示

所以我在類規則中圖片的deny和access規則，列表中存放的是正則表示式

rules = {
        'spider1': {
            'img': {
                'access': [],
                'deny': ['icon_.*?\.gif', '\.gif'],
            },
            'file': {
                'access': [],
                'deny': ['docid'],
            },
        } 
,
    }

優先排除不需要的圖片和保留一定需要的圖片，剩下的部分使用String.BytesIO()判斷圖片尺寸，
保留長寬畫素相乘>10000的圖片

特殊Unicode符號

見Python清洗Unicode資料

HTML標籤註釋

使用正則刪除掉 <> /**/ 中的內容

re.compile(r'\<.*?\>|\/\*.*?\*\/').sub(' ', str)

其他字元

前面的清洗完成後基本還剩下換行符和識別符號，使用str.replace()替換即可

str.replace('\\n', '') \
   .replace('\\r', '') \
   .replace('\\t', '') \
   .replace('\\xa0', '') \
   .replace('\\xc2', '') \
   .replace('\\u3000', '')

規則清洗

通用的清洗後會有一些特殊資料殘留，我將特殊規則寫在類中，根據具體規則實現字串替換等操作

rules = {
        'spider1': {
            'content': {
                'replace': ["\',\'"],
            },
        },
    }

方法鏈呼叫

為了使用方便，封裝在一條方法鏈中，清洗時只需要依次根據需求呼叫即可

Clear_Data(item) \
    .empty_key() \
    .catch_file_img() \
    .unicode_char('content') \
    .unicode_char('title') \
    .html_label('content') \
    .word_wrap('content') \
    .special_rules()

完整程式碼

clear.py
update /18.03.12.1

import pymongo
import re
from io import BytesIO
from PIL import Image
import requests


class Clear_Data():
    rules = {
        'spider1': {
            'img': {
                'access': [],
                'deny': ['icon_.*?\.gif', '\.gif'],
            },
            'file': {
                'access': [],
                'deny': ['docid'],
            },
            'content': {
                'replace': ["\',\'"]
            }
        },
        'spider2': {
            'img': {
                'access': ['_upload\/article'],
                'deny': ['icon_.*?\.gif', '\.gif'],
            },
            'file': {
                'access': [],
                'deny': [],
            }
        },
        'spider3': {
            'img': {
                'access': [],
                'deny': ['comm_20\.jpg', 'doc\.gif', 'arrow3\.gif', 'icon_.*?\.gif', '\.gif'],
            },
            'file': {
                'access': [],
                'deny': [],
            }
        }
    }

    def __init__(self, item):
        item.pop('_id')
        self.item = item

    def rep(self):
        return self.item

    def empty_key(self):
        fields = ['title', 'url', 'date', 'content', 'category', 'index', 'classify', 'institution',
                  'abstract', 'license', 'source', 'file', 'img']
        for key, value in self.item.items():
            if value == None:  # 清除空欄位
                if key == 'file' or key == 'img':
                    self.item[key] = []
                else:
                    self.item[key] = ''

        for field in fields:  # 補全欄位
            if not field in self.item:
                if field == 'file' or field == 'img':
                    self.item[field] = []
                else:
                    self.item[field] = ''
        return self

    def word_wrap(self, key):  # 去除換行空格
        self.item[key] = self.item[key] \
            .replace('\\n', '') \
            .replace('\\r', '') \
            .replace('\\t', '') \
            .replace('\\xa0', '') \
            .replace('\\xc2', '') \
            .replace('\\u3000', '')
        return self

    def html_label(self, key):  # 清除html標籤
        self.item[key] = re.compile(r'\<.*?\>').sub(' ', self.item[key])
        return self

    def unicode_char(self, key):  # 清除unicode異常字元
        self.item[key] = re \
            .compile( \
            u"[^"
            u"\u4e00-\u9fa5"
            u"\u0041-\u005A"
            u"\u0061-\u007A"
            u"\u0030-\u0039"
            u"\u3002\uFF1F\uFF01\uFF0C\u3001\uFF1B\uFF1A\u300C\u300D\u300E\u300F\u2018\u2019\u201C\u201D\uFF08\uFF09\u3014\u3015\u3010\u3011\u2014\u2026\u2013\uFF0E\u300A\u300B\u3008\u3009"
            u"\!\@\#\$\%\^\&\*\(\)\-\=\[\]\{\}\\\|\;\'\:\"\,\.\/\<\>\?\/\*\+"
            u"]+") \
            .sub('', self.item[key])
        return self

    def catch_file_img(self):
        file = []
        img = []
        img_access_rule = '|'.join(self.rules[self.item['source']]['img']['access'])
        img_deny_rule = '|'.join(self.rules[self.item['source']]['img']['deny'])
        file_access_rule = '|'.join(self.rules[self.item['source']]['file']['access'])
        file_deny_rule = '|'.join(self.rules[self.item['source']]['file']['deny'])
        domain_name = re \
            .search(r'(?i)https?:\/\/.*?\/', self.item['url']) \
            .group()

        for content in re.findall(re.compile(r'\<img.*?src=.*?\>'), self.item['content']):
            if re.search(r'(?i)gif|jpg|png|psd|swf|bmp|emf|gif|webp', content):
                _url_ = re \
                            .search(r'(?i)src=[\'\"].*?[\'\"]', content) \
                            .group()[5:-1]
                if re.search(r'(?i)^http', _url_):  # 連結頭部沒有域名則新增
                    img_url = _url_
                else:
                    img_url = domain_name + _url_

                if img_deny_rule and re.search('(?i)' + img_deny_rule, img_url):  # 匹配deny規則丟棄
                    continue
                elif img_access_rule and re.search('(?i)' + img_access_rule,
                                                   img_url):  # 匹配access規則丟棄
                    img.append(img_url)
                else:  # 其他判斷圖片尺寸
                    try:
                        requests.adapters.DEFAULT_RETRIES = 5
                        r = requests.get(img_url)
                        tmp_im = BytesIO(r.content)
                        im = Image.open(tmp_im)
                    except OSError:
                        pass
                    else:
                        if im.size[0] * im.size[1] > 10000:
                            img.append(img_url)

        for content in re.findall(re.compile(r'\<a.*?href=.*?\>'), self.item['content']):
            if re.search(r'(?i)doc|docx|pdf|xlsx|xls|csv|txt|ppt|pptx|zip|rar|7z', content):
                _url_ = re \
                            .search(r'(?i)href=[\'\"].*?[\'\"]', content) \
                            .group()[6:-1]
                if re.search(r'(?i)^http', _url_):
                    file_url = _url_
                else:
                    file_url = domain_name + _url_

                if file_deny_rule and re.search('(?i)' + file_deny_rule, file_url):  # 匹配deny規則丟棄
                    continue
                elif file_access_rule and re.search('(?i)' + file_access_rule,
                                                    file_url):  # 匹配access規則丟棄
                    file.append(file_url)
                else:  # 未匹配則加入
                    print(file_url)
                    file.append(file_url)

        self.item['file'] = file
        self.item['img'] = img
        return self

    def special_rules(self):
        content_replace_rule = '|'.join(self.rules[self.item['source']]['content']['replace'])
        item['content'] = item['content'].replace(content_replace_rule, '')
        return self

count = 10000 # 分頁請求資料
page = 0
while True:
    page = page + 1
    skip = (page - 1) * count
    items = list(db['data_raw'].find({}).skip(skip).limit(count))
    for item in items:
        Clear_Data(item) \ # 清洗過程
            .empty_key() \
            .catch_file_img() \
            .unicode_char('content') \
            .unicode_char('title') \
            .html_label('content') \
            .word_wrap('content') \
            .special_rules()
    db['data_value'].insert(items) # 批量插入
    print(str(page))
    if len(items) < count:
        break

原文出處：https://blog.csdn.net/qq_33282586/article/details/80637257

「Python」爬蟲自然語言清洗元件 v1.0.0

公告：博主因使用魔理沙的掃把表達清洗，已被車萬粉拉去祭天。設計思路我認為從網站上爬取下來的內容要清洗的有兩大塊：通用清洗和規則清洗，換句話說就是可複用的和不可複用的。通用清洗是每個爬蟲

「詞嵌入」在自然語言處理中扮演什麼角色？一文搞懂Word Embeddings的背後原理

原文來源：DATASCIENCE 作者：Ruslana Dalinina 「機器人圈」編譯：嗯~阿童木呀、多啦A亮「機器人圈」正式更名為「雷克世界」，後臺回覆「雷克世界」檢視更多詳

「Python」資料清洗常用正則

對爬蟲資料進行自然語言清洗時用到的一些正則表示式標籤中的所有屬性匹配（排除src,href等指定引數）參考連結 # \b(?!src|href)\w+=[\'\"].*?[\'\"](?=[\s\>]) # 匹配特徵 id="..

「Python」Numpy equivalent of MATLAB's cell array

design ike can acc sta sig bject b- tlab 轉自Stackoverflow。備忘用。 Question I want to create a MATLAB-like cell array in Numpy. How can I acco

「Python」python-nmap安裝與入門

n-n python win namp sca details 分享 mes com 1、安裝namp https://nmap.org/download.html 下載鏈接 PS：windows安裝似乎麻煩一些，需要多下載npcap，官網有鏈接 2、python安裝註意

Python中呼叫自然語言處理工具HanLP手記

HanLP方法封裝類： 1. # -*- coding:utf-8 -*- 2. # Filename: main.py 3. 4.from jpype import * 5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\h

「python」bluepy 一款python封裝的BLE利器！

1、bluepy 簡介 bluepy是github上一個很好的藍芽開源專案，其地址在 LINK-1 ，其主要功能是用python實現linux上BLE的介面。 This is a project to provide an API to allow access to

利用NLTK在Python下進行自然語言處理

自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向。自然語言工具箱（NLTK，Natural Language Toolkit）是一個基於Python語言的類庫，它也是當前最為流行的自然語言程式設計與開發工具。在進行自然語言處理研究和應用時，恰當利用NLTK中提供的函式

「python」比較關係運算符

比較(即關係)運算子 python中的比較運算子如下表運算子描述示例 == 檢查兩個運算元的值是否相等，如果是則條件變為真。如a=3,b=3則（a == b) 為 true. != 檢查兩個

「python」檔案的隨機讀寫

檔案的隨機讀寫獲取當前讀寫的位置在讀寫檔案的過程中，如果想知道當前的位置，可以使用tell()來獲取 # 開啟一個已經存在的檔案 f = open("test.txt", "

「Python」python讀寫csv檔案並增加行列

# -*- coding: utf-8 -*- """ Created on Thu Aug 17 11:28:17 2017 @author: Shawn Yuen """ import csv

「Mongo」聚合操作與清洗重複資料項

使用Mongo聚合操作來進行重複的資料項清洗，並使用PyMongo加入到資料清洗元件中。當前環境：PyMongo 3.6.1 / MongoDB 3.4.7 / Python 3.6.4 :: Anaconda, Inc. 在爬蟲中斷續爬時會出

Python下的自然語言處理利器-LTP語言技術平臺 pyltp 學習手札

1 什麼是pyltp 語言技術平臺(LTP) 是由哈工大社會計算與資訊檢索研究中心 11 年的持續研發而形成的一個自然語言處理工具庫，其提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、高效、精準的自然語言處理技

「python」使用Python操作Excel的學習

開發十年，就只剩下這套架構體系了！ >>>

手把手教程：用Python開發一個自然語言處理模型，並用Flask進行部署

今年企業對Java開發的市場需求，你看懂了嗎？ >>>

專注機器學習、深度學習、神經網路、自然語言處理、演算法、Python體系、分散式爬蟲等

深度整理AI學習資料，長期更新機器學習實戰中文文字版，帶完整書籤，能複製文字出來。還有英文版，中文掃描版，原始碼，讀書筆記等，非常全面；機器學習-實用案例解析，中英文版，帶完整

「玩轉Python」打造十萬博文爬蟲篇

前言這裡以爬取部落格園文章為例，僅供學習參考，某些AD滿天飛的網站太浪費爬蟲的感情了。爬取使用 BeautifulSoup 獲取博文通過 html2text 將 Html 轉 Markdown 儲存 Markdown 到本地檔案下載 Markdown 中的圖片到本地並替換圖片地址寫入資料庫

javascript——從「最被誤解的語言」到「最流行的語言」

pop tro 經驗谷歌公司語法技術分享易懂選擇 12px JavaScript曾是“世界上最被誤解的語言”。由於它擔負太多的特性。包含糟糕的交互和失敗的設計，但隨著Ajax的到來。JavaScript“從最受誤解的編程語言演變為最流行的語言”，這除了幸運之外

NLP-python 自然語言處理01

count ems odin 頻率分布 str sep mon location don 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Sep 6 22:21:09 2017 4 5 @author: A

Python自然語言處理1

cmd 輸入函數調用 down load src 選擇分享 cnblogs 首先，進入cmd 輸入pip install的路徑隨後開始下載nltk的包一、準備工作 1、下載nltk 我的之前因為是已經下載好了，我現在用的參考書是Python自然語言處理這本書，最

「Python」爬蟲自然語言清洗元件 v1.0.0

設計思路

通用清洗

空欄位補全

篩選附件和圖片

特殊Unicode符號

HTML標籤註釋

其他字元

規則清洗

方法鏈呼叫

完整程式碼

相關推薦