資料開發_Python資料預處理_Pandas案例(二)

阿新 • • 發佈：2020-11-25

說明

1.資料預處理
   資料預處理中清洗資料，是重塑資料的步驟之一，將一些不符合程式輸入的資料整理成符合相應模式的資料
   資料重塑能力
 2.一些符號說明
    import pandas as pd
    df 是一個數據框  eg:
     df = pd.DataFrame({
     'col_1_nm':['11','22'],
     'col_2_nm':['da','dd']
     })

資料型別轉換

資料型別
   Pandas型別 object    int64   float64  datetime64  
   Python型別 str    int  float datetime
函式
    Numpy和Pandas的檢視方式略有不同，一個是 dtype,一個是dtypes
   pandas方法   df.dtype  df.info  size  values index
   Python中函式 type()
-- 讀取資料指定型別
df.astype() 強制轉換
pd.to_numeric()
pd.to_datetime()

缺失值

  1.缺失值來源： 來源於資料來源
              來源於資料操作 merge() 等操作
	 來源於資料操作的情況
	  01. mid_data = pd.merge(exm_input, sap_input, left_on='field_code', right_on='field_code', how='left')
	  02.兩個資料框
	     df.append(df2)
	     pd.concat(, axis=1)  pd.concat(, axis=0)
  2.缺失值處理
   數值型和字串型轉換經常遇到空值 / NaN值處理
    1. 刪除缺失值：dropna函式    df.dropna(how='all')   df.dropna(axis='columns')  NA的閾值。引數thresh=2，表示行/列中的NA數量大於2才刪除
    2. 替換缺失值：fillna函式
	        設定每列NA的填充值。value為字典格式	
            values = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
            df.fillna(value=values)
			生成字典
			   pd.isna(data) and isinstance(data, np.int64):
    3. 判斷缺失值：isna函式
    4. 判斷缺失值：notna函式
  缺失值在資料型別轉換過程中的問題
      ValueError: cannot convert float NaN to integer

pandas展示

-- pandas在進行資料展示時，展示所有列
pd.set_option('display.max_columns', None)
pd.get_option('display.max_rows')
pd.get_option('display.max_columns')

重複值和異常值處理

 1.重複值：
   判斷是否重複，
     and(df.duplicated())  any(df.duplicated(subset = ['price','cnt']))
   以及如何處理重複資料： 去重 合併
      去重：  drop_duplicats()
	  數keep
        keep可以為first和last，表示是選擇最前一項還是最後一項保留，預設first，
		還有一個是 False   - False : Drop all duplicates.	    
 2.異常值
    異常值發現

向量化程式設計

  向量化程式設計

案例程式碼

  拼接SQL的資料

參考：

  https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

資料開發_Python資料預處理_Pandas案例(二)

說明 1.資料預處理資料預處理中清洗資料，是重塑資料的步驟之一，將一些不符合程式輸入的資料整理成符合相應模式的資料

資料開發_Python和Java在函式引數傳遞以及賦值的總結

理解的角度函式引數傳遞機制和變數賦值函式呼叫的角度值傳遞（passl-by-value），是把實參的值賦值給形參。那麼對形參的修改，不影響實參的值

資料開發_Python的分組和Java分組實現

Python的情況 Python的分組和Java分組實現在實際開發中，涉及到分組和排序，可以使用Pandas中的分組，在使用Pandas中的，在使用Panda之前，可以使用Python內建的資料結構實現分組

資料開發_Python字典遍歷和Java字典遍歷

順序：排序：插入順序自然鍵值順序自定義順序遍歷：遍歷的方式遍歷的順序

資料開發_Python操作MySQL庫

Python中連線Mysql的包 MySQLdb是用於Python連結Mysql資料庫的介面，它實現了 Python 資料庫 API 規範 V2.0，基於 MySQL C API 上建立的

資料開發_Python獲取資料

常見的分類分類方式一 1.不用登入就能爬取的網站， 2.需要先登入的網站這一類網站又可以分為：

gridview 空資料寬度_Python使用Reportlab處理PDF資料詳解第2部分

技術標籤：gridview 空資料寬度背景知識視訊教程 Reportlab Python完整教程Python PDF處理viadean.com

資料開發_Python讀取檔案

os 模組是Python標準庫中提供的與作業系統互動的模組，提供了訪問作業系統底層的介面，裡面有很多作業系統的函式

大資料開發技術之倒排索引案例分析

1．需求有大量的文字（文件、網頁），需要建立搜尋索引，如圖4-31所示。

資料開發_資料湖

資料湖技術資料湖（Data Lake）開源的資料湖技術： delta、hudi、iceberg 儲存--資料組織的管理

大資料開發中資料質量如何做？有什麼意義？

一、為什麼要做資料質量：在大資料ETL過程中，如何保障資料質量，減少使用者投訴？做資料質量！

大資料開發之資料倉庫架構分析

概述架構是資料倉庫建設的總體規劃，從整體視角描述瞭解決方案的高層模型，描述了各個子系統的功能以及關係，描述了資料從源系統到決策大資料培訓系統的資料流程。業務需求回答了要做什麼，架構就是回答怎麼做的

大資料開發之資料倉庫Hive

1．資料倉庫的基本概念資料倉庫，英文名稱為Data Warehouse，可簡寫為DW或DWH。資料倉庫的目的是構建面向分析的整合化資料環境，為企業提供決策支援（Decision Support）。它出於分析性報告和決策支援目的而建立。

大資料開發之資料倉庫Hive學習介紹

Hive是什麼? Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映成為一張資料庫表，並提供類SQL的查詢功能。可以將sql語大資料培訓句轉化為MapReduce任務進行執行。Hive提供了一系列的工具，

大資料開發之資料讀取—Pandas vs Spark

資料讀取是所有資料處理分析的第一步，而Pandas和Spark作為常用的計算框架，都對常用的資料來源讀取內建了相應介面。總體而言，大資料培訓資料讀取可分為從檔案讀取和從資料庫讀取兩大類，其中資料庫讀取包含了主

網站流量日誌分析（模組開發——資料預處理）

目錄資料預處理預處理的程式設計思路問題MapReduce程式設計技巧點選流模型的概述會話（session）程式碼pom.xmllog4j.propertiespreprocess 模組WebLogBeanWebLogMainWebLogMapperpageviews 模組ClickStreamPageViewP

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

關於Pytorch的MNIST資料集的預處理詳解

關於Pytorch的MNIST資料集的預處理詳解 MNIST的準確率達到99.7% 用於MNIST的卷積神經網路（CNN）的實現，具有各種技術，例如資料增強，丟失，偽隨機化等。

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

pytorch資料預處理錯誤的解決

出錯： Traceback (most recent call last): File \"train.py\",line 305,in <module> train_model(model_conv,criterion,optimizer_conv,exp_lr_scheduler)

資料開發_Python資料預處理_Pandas案例(二)

說明

資料型別轉換

缺失值

pandas展示

重複值和異常值處理

向量化程式設計

案例程式碼

參考：

相關推薦