髒資料清洗，pandas.apply()的應用

阿新 • • 發佈：2021-07-28

原資料如下所示：

IMAGETYPE count

.?+? 1713

Jh.5? 100

.??U 38

.11.1 1

.13.1 1

.15.11 2

我需要對資料內的帶有特殊符號，且第一個逗號前的資料進行清洗。

分析清洗條件：

1.含有字元如：?,<,>,),(,=,# 的資料全部清洗drop

2.第一個逗號前面，得滿足條件1）可以帶有首字母a或A；2）數字部分不能大於29

分析思路：

1.建立函式，判斷字串，由於用的Series，所以用apply()就可以對每個元素進行判斷操作，讀進來是一個字串，如果是dataframe格式，需要使用applymap()

才能讀到每個元素

2.首先判斷讀進來的字串是否含有特殊字元，這裡用了一個迴圈判斷

3.然後切割字串，判斷第一個元素是不是空；是不是含有A或a；是不是數字小於29

4.如果不滿足上述條件的，都返回 None，方便在dataframe中使用dropna()刪除髒資料

完整程式碼如下：

import pandas as pd
df = pd.read_csv(r'Result_6.csv')


def re(x):
    list1 = ["-","?","=","@","*","(",">"]
    for i in list1:
        if i in x:
            return None
    a = x.split(".")
    try:
        if a[0] == '':
            return None
        elif a[0][0] == 'a' or a[0][0] == 'A':
                if int(a[0][1:]) > 29:
                    return None
        elif int(a[0]) > 29:
            return None
    except:
        return None
    return x


df["IMAGETYPE"] = df["IMAGETYPE"].apply(re)
df = df.dropna(axis=0, how="any")
df.to_csv('clean3.csv', encoding='utf-8')

髒資料清洗，pandas.apply()的應用

原資料如下所示： IMAGETYPE count .?+? 1713 Jh.5? 100 .??U 38 .11.1 1 .13.1 1 .15.11 2 我需要對資料內的帶有特殊符號，且第一個逗號前的資料進行清洗。

004.PGSQL-髒資料清理，頻繁delete\update高水位線問題,vacuum full 、vacuum

查看錶大小 -- 查出所有表（包含索引）並排序 -- 查出所有表（包含索引）並排序

從“資料”到“大資料”，激發資料潛力，深耕智慧應用！

活動簡介從“資料”到“大資料”，不僅僅是數量上的差別，更是資料質量的提升。

[資料清洗]- Pandas 清洗“髒”資料（三）

預覽資料這次我們使用 Artworks.csv ，我們選取 100 行資料來完成本次內容。具體步驟：

[資料清洗]- Pandas 清洗“髒”資料（二）

概要瞭解資料分析資料問題清洗資料整合程式碼瞭解資料在處理任何資料之前，我們的第一任務是理解資料以及資料是幹什麼用的。我們嘗試去理解資料的列/行、記錄、資料格式、語義錯誤、缺失的條目以及錯誤的格式

[資料清洗]-Pandas 清洗“髒”資料（一）

概要準備工作檢查資料處理缺失資料新增預設值刪除不完整的行刪除不完整的列

pandas DataFrame 資料選取，修改，切片的實現

在剛開始使用pandas DataFrame的時候，對於資料的選取，修改和切片經常困惑，這裡總結了一些常用的操作。

2-python資料分析-基於pandas的資料清洗、DataFrame的級聯與合併操作

基於pandas的資料清洗處理丟失資料有兩種丟失資料： None np.nan(NaN) 兩種丟失資料的區別

基於pandas的資料清洗

處理丟失資料有兩種丟失資料： None np.nan(NaN) 兩種丟失資料的區別 type(None) NoneType

淺談工業4.0背景下的空中資料埠，無人機3D 視覺化系統的應用

前言近年來，無人機的發展越發迅速，既可民用於航拍，又可軍用於偵察，涉及行業廣泛，把無人機想象成一個“會飛的感測器”，無人機就成了工業4.0的一個空中資料埠，大至地球物理、氣象、農業資料、小至個

Pandas如虎添翼！資料清洗新神器Pyjanitor！

Pandas在資料分析領域已經是家喻戶曉，成為了資料分析師最常使用的Python庫之一。本文重點介紹與Pandas庫相輔相成的另一個數據分析專用的Python庫：Pyjanitor。

資料爬蟲＋資料清洗 + 資料視覺化，完整的專案教程！

一：資料探勘我選用了鏈家網做資料爬取場所（不得不嘮叨一句，這個網站真是為了爬蟲而生的，對爬蟲特別友好哈哈哈，反扒措施比較少）

Python資料分析重要庫Pandas：資料清洗後的資料整合

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

一張圖瞭解大資料概念，大資料應用場景總結

大資料概念大資料不僅僅是大量的資料，而且是來自不同來源，存在不同型別，代表不同含義的海量資料。大資料應該動態變化，不斷增加，而且能夠通過研究分析發現規律產生價值。大資料可以幫助我們根據對歷史

Pandas 資料清洗常見方法

Pandas 資料清洗常見方法 01 讀取資料 df=pd.read_csv(\'檔名稱\') 02 檢視資料特徵 df.info()

pandas：使用函式批量處理資料（map、apply、applymap）

此文轉載自：https://blog.csdn.net/weixin_43887421/article/details/109776020#commentBox pandas：使用函式批量處理資料（map、apply、applymap）

Python 7種超實用的資料清洗方法，這你一定要掌握

資料清洗是資料分析的必備環節，在進行分析過程中，會有很多不符合分析要求的資料，例如重複、錯誤、缺失、異常類資料。

資料分析三 pandas空值清洗

有兩種丟失資料： None np.nan(NaN) import pandas as pd import numpy as np from pandas import Series,DataFrame

pandas read_csv讀取資料時，數字欄位值以文字方式讀取

技術標籤：Python學習筆記pythonpandas pandas 讀取csv文字時，數字欄位值中有以0開頭的，讀取後0會被丟掉，如下圖文字：以預設方式讀取如下：

python10——pandas 合併資料 concat，append

技術標籤：機器學習python索引文章目錄前言concat引數axis，ignore_index引數join appendappend新增一個數據索引不同的數列