資料清洗的基本思路分享(都是個人見解,歡迎補充)
阿新 • • 發佈:2018-11-30
首先丟擲一個問題:
爬取到資料到資料庫之後,怎麼進行資料清洗和進行去重上傳的
=============================解答一下=============================
資料清洗:
資料清洗概念就是去從,檢查資料一致性,處理無效值和缺失值等)刪除重複資訊、糾正存在的錯誤.
可以利用pandas模組(最常用的清洗模組)和正則或者numpy模組(機器學習),簡單的去換行和去除空格可以直接呼叫方法====>replace,去掉換行符(\n),strip(),去掉頭尾空行
資料去重:
(1)在scrapy中已經能做到url連結去重
(2)布隆過濾器(BloomFilter,原理和雜湊基本一樣)
(3)存資料庫的時候先查詢(如果不存)在再插入
(4)在資料中增加一個唯一索引欄位,這個欄位是某個欄位做雜湊,這樣可以達到減少記憶體,比如我爬二手車,車牌是一個唯一值,我把車牌做雜湊變成一個唯一索引,這樣重複資料就不能插入了
布隆過濾器:網頁URL的去重,垃圾郵件的判別,集合重複元素的判別,查詢加速(比如基於key-value的儲存系統)等
資料上傳:
只要清洗去從完畢以後,就可以直接上傳到公司的資料庫中或者從本地資料庫複製到公司資料庫中,然後其他人呼叫就好了