資料分析中的'疑難雜症'小結（二）

阿新 • • 發佈：2021-08-01

資料分析中的'疑難雜症'小結（二）

1. 如何對整個DataFrame資料的缺失值進行處理

使用dropna()直接刪除含有缺失值的行
使用fillna(num)進行缺失值的替換填充

例如：df.dropna().head(3) / df.fillna(0).head(3)

2. 資料中重複值的檢視

使用duplicated()判斷重複數值，說明：duplicated()是對整行進行查重，return 重複了的資料，且只現實n-1條重複的資料（n是重複的次數）

例如：df[df.duplicate()]
drop_duplicates()

函式是將所有重複的資料都去掉了，且預設保留重複資料的第一條。

例如：frame.drop_duplicates()

3. 資料預處理的分箱操作

在建立模型前一般需要對特徵變數進行離散化。特徵離散化後，模型會更穩定，降低模型過擬合的風險。而特徵離散化處理通常採用的就是分享法。資料分箱又分為有監督分箱和無監督分箱，石佛使用標籤決定是有監督還是無監督。

簡單的數值分距使用pd.cut，按頻率分距使用pd.qcut

具體分箱細節：https://blog.csdn.net/qq_22172133/article/details/118883524

4. 檢視文字變數的三種方式

value_counts

顯示變數名及其對應數量。例如：df['Sex'].value_counts()

unique

顯示變數名。例如：df['Sex'].unique()

nunique

顯示變數名種類數。例如：df['Sex'].nunique()

5. 類別文字的轉換

replace來實現

例如：df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])

map實現

例如：df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})

sklearn preprocessing中的LabelEncoder實現

from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()  
    label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    df[feat + "_labelEncode"] = df[feat].map(label_dict)
    df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))

df.head()

6. 類別文字轉one-hot編碼

pd.get_dummies進行編碼轉化

x = pd.get_dummies(df[feat], prefix=feat)

具體用法：https://blog.csdn.net/maymay_/article/details/80198468

7. 文字特徵提出

str.extract實現正則表示式抽取

df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)

資料分析中的'疑難雜症'小結（二）

資料分析中的\'疑難雜症\'小結（二） 1. 如何對整個DataFrame資料的缺失值進行處理

go 複用ssh 中的session_重新認識SSH（二）

技術標籤：go 複用ssh 中的session 專欄排版存在些許問題，歡迎訪問我的部落格：emous.github.io 訪問更多博文。

Soul閘道器中的Sofa外掛執行原理（二）

技術標籤：Soul 在上一篇文章中，我們通過跟蹤原始碼的方式理解了Sofa外掛的執行原理，將發起的http請求轉化為sofa的泛化呼叫，但是有個關鍵的地方沒有展開講：就是服務的配置資訊是怎麼來的？以及代理物件是怎麼

學習mysql中遇到的問題以及解決（二）

學習mysql中遇到的問題以及解決（二） 1，報錯：查詢某個欄位不知道，但是我們明明是在表中有某個欄位的呀？？？

Java中的函數語言程式設計（二）函式式介面Functional Interface

寫在前面前面說過，判斷一門語言是否支援函數語言程式設計，一個重要的判斷標準就是：它是否將函式看做是“第一等公民（first-class citizens）”。函式是“第一等公民”，意味著函式和其它資料型別具備同等的地位

AspNetCore中AutoMapper對映物件使用技巧（二）

AspNetCore中AutoMapper對映物件使用技巧（二）繼上一篇：AutoMapper自動對映框架的使用（一） - 點終將連成線 - 部落格園 (cnblogs.com)

SpringBean載入過程中，迴圈依賴的問題（二）

目錄getBeanresolveBeforeInstantiationAnnotationAwareAspectJAutoProxyCreatordoCreateBeanpopulateBeaninitializeBean三級快取獲取代理物件AbstractAdvisorAutoProxyCreatorapplyBeanPostProcessorsAfterInitial