【Q001】sklearn的LabelEncoder使用問題處理

阿新 • • 發佈：2018-11-30

在進行資料清洗過程中，為了便於計算處理，需要對字串型別特徵進行編碼操作。
sklearn中的LabelEncoder方法可以支援這一操作。
具體用法
這裡博主講的比較清楚了，下面記錄一下遇到的問題。

#資料清洗操作
def data_clean(op,trans):
    # 對操作表中的每個特徵進行編碼（1,2,3....）
    for feature in op.columns[2:]:
        print(op[feature].dtype)
        if op[feature].dtype == 'object':
            col_data=op[feature].fillna('NA')
            col_data[col_data=='']='NA'
            result = le.fit_transform(col_data)
            op[feature] = result
    print('op done')
    for feature in trans.columns[2:]:
        if trans[feature].dtype == 'object':
            col_data=trans[feature].fillna('NA')
            col_data[col_data=='']='NA'
            result=le.fit_transform(col_data)
            trans[feature]=result
    print('trans done')
    return op,trans

上面是常規的特徵編碼操作，注意在呼叫fit_transform前，需要對原資料中的缺失值和未知值（如空字串）進行處理。

空值：在pandas中的空值是""
缺失值：在dataframe中為nan或者naT（缺失時間），在series中為none或者nan即可

對於缺失值，fillna可以處理；
對於未知值，可以在判斷後進行制定填充。

要注意的是這兩個是不一樣的，fillna()處理不了未知值，會產生Type Error。

【Q001】sklearn的LabelEncoder使用問題處理

在進行資料清洗過程中，為了便於計算處理，需要對字串型別特徵進行編碼操作。 sklearn中的LabelEncoder方法可以支援這一操作。具體用法這裡博主講的比較清楚了，下面記錄一下遇到的問題。 #資料清洗操作 def data_clean(op,trans): # 對操

【jQuery】jQ處理xml文件和xml字符串

文本技術字符串處理兼容 child nodevalue url att 1.xml文件 <?xml version="1.0" encoding="utf-8" ?> <root> <book id="1">

【java】java處理隨機浮點數（小數點後兩位）用RMB的大寫數值規則輸出

pen junit toc get code package 部分 amp print 晚上上床前，拿到這個有意思的問題，就想玩弄一番： ====================================================================

python全棧開發基礎【補充】異常處理

ret ror div 問題條件 self. float 異常處理機制有關一、錯誤與異常程序中難免會出現錯誤，而錯誤分為兩種 1.語法錯誤：（這種錯誤，根本過不了python解釋器的語法檢測，必須在程序執行前就改正） 2.邏輯錯誤：（邏輯錯誤）,比如用戶輸入的不合適

【轉】Python處理wave文件

方式 RM ani tag 文件格式嵌套場景分享圖片 wave #本文PDF版下載 Python解析Wav文件並繪制波形的方法 #本文代碼下載 Wav波形繪圖代碼 #本文實例音頻文件night.wav下載音頻文件下載（石進-夜的鋼琴曲）前言在現在繁忙的生活中，

【7】異常處理

異常處理主要有兩種形式的語法：（1）try---except---else（2）try--except--finally 型別一： # 語法規範# 當try語句執行出現錯誤，會自動匹配錯誤，如果匹配成功,會執行該條的語句。# 如果沒匹配到錯誤，就執行else '''try : 語

【Go】錯誤處理

·　　error型別是一個介面型別，也是一個Go語言的內建型別。在這個介面型別的宣告中只包含了一個方法Error。這個方法不接受任何引數，但是會返回一個string型別的結果。它的作用是返回錯誤資訊的字串表示形象。我們使用error型別的方式通常是，在函式宣告結果列表的最後，宣告一個該型別的結果。同時在呼叫這

【 MATLAB 】訊號處理工具箱之 fft 案例分析

上篇博文：【 MATLAB 】訊號處理工具箱之fft簡介及案例分析介紹了MATLAB訊號處理工具箱中的訊號變換 fft 並分析了一個案例，就是被噪聲汙染了的訊號的頻譜分析。這篇博文繼續分析幾個小案例： Gaussian Pulse 這個案例是將高斯脈衝從時域變換到頻域，高斯脈衝的資

【 MATLAB 】訊號處理工具箱之fft簡介及案例分析

目錄 Syntax Description Y = fft(X) Y = fft(X,n) Y = fft（X，n，dim） Examples Noisy Signal Syntax Y = fft(X) Y = fft(X

【 MATLAB 】訊號處理工具箱之 ifft 簡介及案例分析

這篇博文和上篇博文對應：【 MATLAB 】訊號處理工具箱之fft簡介及案例分析目錄 ifft Syntax Description 案例分析 Inverse Transform of Vector Padded Inverse Transform of Matri

【 MATLAB 】訊號處理工具箱之 dct 簡介及案例分析

dct Discrete cosine transform Syntax y = dct(x) y = dct(x,n) y = dct(x,n,dim) y = dct(___,'Type',dcttype) Description y = dct（x）

【c#】異常處理：try catch throw

異常處理，是程式語言或計算機硬體裡的一種機制，用於處理軟體或資訊系統中出現的異常狀況（即超出程式正常執行流程的某些特殊條件）。也就是說，在程式執行時出現的任何意外或異常情況時，處理這種意外或情況的方法，叫做異常處理。

【batch】批處理檔案多引數處理和for迴圈字串連線

batch檔案寫起來，酸爽不談了。 1 @echo off 2 set pathPrefix=D:\ 3 4 set varStr= 5 if "%1"=="" ( 6 echo No variable received, please call the bat with va

【Pandas】Pandas處理本文資料

目錄連線方法摘要使用文字資料 Series和Index配備了一組字串處理方法，可以輕鬆地對陣列的每個元素進行操作。也許最重要的是，這

【 MATLAB 】訊號處理工具箱的訊號產生函式之 sawtooth 函式簡記

sawtooth 函式 x = sawtooth(t) generates a sawtooth wave with period 2π for the elements of the time

【 MATLAB 】訊號處理工具箱

這個總結可以說是一個簡潔的訊號處理工具大全了，我覺得它的作用是讓人開闊眼界，以整體來認識訊號處理工具箱。可以根據裡面的內容，查閱matlab的幫助文件，去學習訊號處理的相關知識等。濾波器設計與分析：

【 MATLAB 】訊號處理工具箱之波形產生函式 pulstran

前兩篇博文和這篇博文有些許聯絡： MATLAB幫助文件稱pulstran函式為：脈衝串（Pulse train）產生函式。 pulstran從連續函式或採樣原型脈衝生成脈衝序列。語法格式：

【NLP】中文處理前提--jieba詳解

介紹 \quad\quad在自然語言處理中，中文處理技術比西文處理技術要落後很大一段距離，許多西文的處理方法中文不能直接採用，就是因為中文必需有分詞這道工序。 \quad\quad當我們進行自然語言處理

【SpringMVC】5.處理模型資料

注意！！！此文章需要配置了SpringDispatcherServlet和InternalResourceViewResolver才能夠使用，如果不會配置，請翻看我【SpringMVC】系列的第一篇文章《【SpringMVC】1. SpringMVC的第一個程

【wavenet】音訊處理庫librosa和pyaudio的使用

1 安裝 #librosa pip install librosa #pyaudio brew install portaudio pip install pyaudio 2 使用 2.1

【Q001】sklearn的LabelEncoder使用問題處理

相關推薦