【跟著stackoverflow學Pandas】

阿新 • • 發佈：2019-02-08

最近做一個系列部落格，跟著stackoverflow學Pandas。

Pandas: change data type of columns - Pandas修改列的型別

資料集

import pandas as pd
a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]
df = pd.DataFrame(a, columns=['col1', 'col2', 'col3'])
print df.head()
#   col1 col2  col3
# 0    a  1.2   4.2
# 1    b   70  0.03 

# 2    x    5     0

print df.dtypes
# col1    object
# col2    object
# col3    object
# dtype: object

這裡的3列資料，col1是明顯的字元資料，col2、col3是數值型資料，但是因為資料在匯入時加了引號，按照字串資料來處理，如果我們想對他們進行數值操作，就需要進行轉換。

下面我們推薦幾種方法

pd.to_numeric

對於明顯是數值的資料，轉換型別直接採用 pd.to_numeric 就可以了，如果資料既有數值型又有字元型，那麼我們就要根據情況區別對待了。

s = pd.Series(['1' 
, '2', '4.7', 'pandas', '10'])
# pd.to_numeric(s)  # 如果直接轉換會報錯
# ValueError: Unable to parse string "pandas" at position 3

# 可以強制轉換，字元型資料就會變成 NaN，資料型別變為 float64
pd.to_numeric(s, errors='coerce')
# 0     1.0
# 1     2.0
# 2     4.7
# 3     NaN
# 4    10.0
# dtype: float64

# 也可以忽略錯誤，結果不做處理
pd.to_numeric(s, errors='ignore' 
)
# 0         1
# 1         2
# 2       4.7
# 3    pandas
# 4        10
# dtype: object

如果有多個列需要轉換，可以採用apply進行批量操作。

df[['col2','col3']] = df[['col2','col3']].apply(pd.to_numeric， errors='ignore') # 同樣可以新增 errors 引數
print df
#  col1  col2  col3
# 0    a   1.2  4.20
# 1    b  70.0  0.03
# 2    x   5.0  0.00

print df.dtypes
# col1     object
# col2    float64
# col3    float64
# dtype: object

相似的函式，還有 pd.to_datetime、pd.to_timedelta，可以實現對時間的轉換。

astype

pd.to_numeric 用起來很簡單，但是它把所有的變數都變成了float64，那麼如果資料是整形呢。我們可以試試 astype 函式。

a = [['a', '1', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]
df = pd.DataFrame(a, columns=['one', 'two', 'three'])
print df
#   one two three
# 0   a   1   4.2
# 1   b  70  0.03
# 2   x   5     0

print df.dtypes
# one      object
# two      object
# three    object
# dtype: object

# 批量操作
df[['two', 'three']] = df[['two', 'three']].astype(float)
print df.dtypes
# one       object
# two      float64
# three    float64
# dtype: object


df['two'] = df['two'].astype(int)
print df.dtypes
# one       object
# two        int64
# three    float64
# dtype: object

生成DataFrame時指定變數型別


df = pd.DataFrame(a, columns=['one', 'two', 'three'], dtype={'one': str, 'two': int, 'three': float})

infer_objects

如果資料很多無法判斷資料型別，可以採用 infer_objects（Pandas Version 0.21.0）

df = pd.DataFrame({'a': [7, 1, 5], 'b': ['3','2','1']}, dtype='object')
df.dtypes
# a    object
# b    object
# dtype: object

df = df.infer_objects()
df.dtypes
# a     int64
# b    object # 因為b列加了引號，推斷成了字串
# dtype: object

【跟著stackoverflow學Pandas】

最近做一個系列部落格，跟著stackoverflow學Pandas。 Pandas: change data type of columns - Pandas修改列的型別資料集 import pandas as pd a = [['

pandas基本介紹-【老魚學pandas】

time map data axis 1.0 分享平均值 rain values 前面我們學習了numpy，現在我們來學習一下pandas。 Python Data Analysis Library 或 pandas 主要用於處理類似excel一樣的數據格式，其中有表頭、

pandas設置值-【老魚學pandas】

per table 新增篩選 pandas panda 使用 date -m 本節主要講述如何根據上篇博客中選擇出相應的數據之後，對其中的數據進行修改。對某個值進行修改例如，我們想對數據集中第2行第2列的數據進行修改： import pandas as pd impo

【跟著我們學Golang】之異常處理

Java中的異常分為Error和Exception來處理，這裡也以錯誤和異常兩種，來分別講一講Go的異常處理。 Go 語言沒有類

為何學習matplotlib-【老魚學matplotlib】

使用 tla pytho markdown pip3 pandas log 中介 htm 這次老魚開始學習matplotlib了。在上個pandas最後一篇博文中，我們已經看到了用matplotlib進行繪圖的功能，這次更加系統性地多學習一下關於matplotlib的功能

matplotlib坐標軸設置-【老魚學matplotlib】

atp pre 線性 com 用法繪制 1.8 .py 什麽我們可以對坐標軸進行設置，設置坐標軸的範圍，設置坐標軸上的文字描述等。基本用法例如： import numpy as np import pandas as pd import matplotlib.pyp

matplotlib圖例-【老魚學matplotlib】

leg import markdown hand image 生成 png 紅色 http 圖例是啥，直接上圖就知道了：怎麽創建上面的圖例呢？很簡單，首先在plt.plot()函數中設置label文本屬性，然後調用plt.legend()生成圖例就可以了，完整的代碼如

sklearn交叉驗證-【老魚學sklearn】

logs 數值可視化 tar [] spl img mode ear 交叉驗證（Cross validation)，有時亦稱循環估計，是一種統計學上將數據樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析，而其它子集則用來做後續對此分析的確認及驗證。一開始的

sklearn交叉驗證2-【老魚學sklearn】

pyplot info 包含 ror -m 根據 spa err 產生過擬合過擬合相當於一個人只會讀書，卻不知如何利用知識進行變通。相當於他把考試題目背得滾瓜爛熟，但一旦環境稍微有些變化，就死得很慘。從圖形上看，類似下圖的最右圖：從數學公式上來看，這個曲線應該是

【小白學C#】淺談.NET中的IL代碼

字節自然朋友 pac command 轉換 finally idt 擴展一、前言　　前幾天群裏有位水友提問：”C#中，當一個方法所傳入的參數是一個靜態字段的時候，程序是直接到靜態字段拿數據還是從復制的函數棧中拿數據“。其實很明顯，這和方法參

【從0學Python】1.開發環境搭建

從0學Python 最近準備學習python了。主要是考慮到python在深度學習和爬蟲方面的應用較廣，未來發展潛力較大。而且python與java相比，語法簡潔靈活，開發效率比較高。正所謂“人生苦短，我選python！”。學習的過程打算用部落格記錄下來，這樣能給自己堅持下去的動力，也能養成一個愛總結的

【跟我學oracle18c】第十八天：EXTENDED DATA-LINKED專項測試

EXTENDED DATA-LINKED：共享公共物件的元資料和資料給Application PDB，在Application PDB內可以

【跟我學oracle18c】第十八天：DATA-LINKED專項測試

DATA-LINKED：共享公共物件的元資料和資料給Application PDB，在Appliation PDB中僅可查詢公共物件在Application root記憶

【跟我學oracle18c】第十八天：METADATA-LINKED專項測試

METADATA-LINKED:共享公共物件的元資料給Application PDB，不可以檢視公共物件在Application root記憶體儲的資料，在Appliation PDB內可插入本地資料。這句話整理出來幾點

【跟我學oracle18c】第十八天：Multitenant Architecture：2.3 Application root,pdb,Container Maps專項測試（對應例項實踐）

對映表指定元資料鏈接的公共表中的一列，並使用分割槽將不同的應用程式PDBs與不同的列值關聯起來。通過這

【跟我學oracle18c】第十八天：Multitenant Architecture：2.3 Overview of Applications in an Application Container

2.3 Overview of Applications in an Application Container 在應用程式容器中，應用程式是儲存在應用程式root中的命名的、版本化的公共資料和元資料集. 在應用程式容器的上下文中，術語“應用程式”指的是“主應用程式定義”。例如，應

【跟我學oracle18c】第十七天：Multitenant Architecture多租戶框架：2.2 Overview of Commonality in the CDB（藍色感悟）

在CDB中，每個使用者、角色或物件都是通用的或本地的。類似地，通常或區域性授予特權. This section contains the following topics: About Commonality in a CDB A common phenomenon defined i

【跟我學oracle18c】第十六天：Multitenant Architecture多租戶框架：2.1 Overview of Containers in a CDB（藍色感悟）

容器是多租戶容器資料庫(CDB)中的模式、物件和相關結構的集合。在CDB中，每個容器都有唯一的ID和名稱 This section contains the following topics: The CDB Root and System Container The CDB

【跟我學oracle18c】第十五天：Multitenant Architecture多租戶框架：1.3 Path to Database Consolidation

在其存在期間, a database is either a CDB or a non-CDB. 您必須在建立時將資料庫定義為CDB，然後在這個CDB中建立PDBs和應用程式容器。. You cannot later transform a non-CDB into a CDB, or a CD

【小白學Lua】之Lua變長引數和unpack函式

一、簡介　　Lua的變長引數和unpack函式在實際的開發中應用的還挺多的，比如在設計print函式的時候，需要支援對多個變數進行列印輸出，這時我們就需要用到Lua中的變長引數和unpack函數了。二、Lua變長引數與unpack函式　　Lua中支援可變引數，用 ... 表示。比如定義下面的這樣一

【跟著stackoverflow學Pandas】

Pandas: change data type of columns - Pandas修改列的型別

資料集

pd.to_numeric

astype

生成DataFrame時指定變數型別

infer_objects

相關推薦