pandas自動推斷日期型別

阿新 • • 發佈：2021-01-19

構建一個csv檔案:

import pandas as pd
pd.DataFrame(data={"datetime": ["1999-10-10 10:10:10"] * 150, "index": range(150)}).to_csv('/tmp/test.csv', index=False)

檢視/tmp/test.csv內容：

datetime,index
1999-10-10 10:10:10,0
1999-10-10 10:10:10,1
1999-10-10 10:10:10,2
1999-10-10 10:10:10,3
...

讀取這個csv檔案：

df = pd.read_csv('/tmp/test.csv')
print(df.dtypes)

輸出：

datetime    object
index        int64
dtype: object

預設pandas並不會自動做日期型別資料的識別，datatime被識別成字串, 使用pandas自帶的推斷日期方法進行推斷：

df = pd.read_csv('/tmp/test.csv', infer_datetime_format=True, parse_dates=['datetime'])
print(df.dtypes)

輸出：

datetime    datetime64[ns]
index                int64
dtype: object

這種方法的問題在於需要事先知道列名，指定從哪些列裡面推斷這些列是不是日期型別，而期望pandas自動識別哪些是日期列就像識別哪些是float列一樣。

檢視一下pandas的推斷方法：

infer_datetime_format: bool, default False
If True and parse_dates is True for a column, try to infer the
datetime format based on the first datetime string. If the format
can be inferred, there often will be a large parsing speed-up.

它的推斷方式使用第一個不為空的值嘗試轉換為日期列，如果能成功把此列當成日期列處理，否則不是。

仿照這個思路，可以來實現自動識別哪些是日期列：

正常讀取pd.read_csv()
讀取出來的df挑出來是object型別的列
對object型別的列取前100行非空的行，嘗試轉換成日期，如果全部成功則認為該列是日期型別

這個方法的優勢：

不需要事先知道csv資料中的列
使用前100行資料比前1行資料更靠譜，而且效能損失不大

實現參考：

df = pd.read_csv('/tmp/test.csv')

def get_categorical_cols(df: pd.DataFrame):
    c_list = []
    for k, v in df.dtypes.items():
        if 'object' in v.name:
            c_list.append(k)
    return c_list


def parse_date(series: pd.Series):
    format = "%Y-%m-%d %H:%M:%S"  # Now only support one format
    # 1. take top 100 non-empty values
    INFER_TOP_N = 100
    series_non_empty = series.dropna()[: INFER_TOP_N]

    # 2. if these value all datetime value infer it as datetime nor object
    for item in series_non_empty:
        try:
            if isinstance(item, str):
                pd.datetime.strptime(item, format)
            else:
                return series
        except Exception as e:
            return series

    # 3. infer as datetime
    return pd.to_datetime(series, format=format)


categorical_cols = get_categorical_cols(df)

for c in categorical_cols:
    df[c] = parse_date(df[c])

print(df.dtypes)

輸出：

datetime    datetime64[ns]
index                int64
dtype: object

參考：

https://stackoverflow.com/questions/51571615/why-use-infer-datetime-format-when-importing-csv-file

pandas自動推斷日期型別

構建一個csv檔案: import pandas as pd pd.DataFrame(data={\"datetime\": [\"1999-10-10 10:10:10\"] * 150, \"index\": range(150)}).to_csv(\'/tmp/test.csv\', index=False)

SpringMVC日期型別接收空值異常問題解決方法

最近遇到SpringMVC寫個controller類，傳一個空串的字元型別過來，正常情況是會自動轉成date型別的，因為資料表對應類型別就是date的

解析MySQL中儲存時間日期型別的選擇問題

一般應用中，我們用timestamp,datetime,int型別來儲存時間格式： int（對應javaBean中的Integer或int）

pandas實現將日期轉換成timestamp

OUTLINE 常見的時間字串與timestamp之間的轉換日期與timestamp之間的轉換常見的時間字串與timestamp之間的轉換

LocalDateTime與mysql日期型別的互動（基於mybatis）

眾所周知，在實體Entity裡面，可以使用Java.sql.Date、java.sql.Timestamp、java.util.Date來對映到資料庫的date、timestamp、datetime等欄位，但是，java.sql.Date、java.sql.Timestamp、java.util.Date這些類都不好

Layer UI表格列日期格式化及取消自動填充日期的實現方法

Layer UI表格列日期格式化方法較為強大也比較簡單針對需要格式化的表格列新增以下程式碼即可

深度思考JDK8中日期型別該如何使用詳解

在JDK8之前，處理日期時間，我們主要使用3個類， Date 、 SimpleDateFormat 和 Calendar 。

java日期型別物件通過mybatis向資料庫中的存取

java日期型別物件通過mybatis向資料庫中的存取一、資料庫中的日期資料型別　　資料庫中的日期資料型別有四種：date、datetime、timestimp、time。date型別只儲存年月日，不儲存時分秒，datetime和timestimp保存年

VS自動按日期生成版本號

VS自動按日期生成版本號,修改解決方案檔案<PropertyGroup> <TargetFramework>netstandard2.1</TargetFramework>

5、日期型別轉換問題

SpringMVC在引數繫結之前將請求中攜帶的引數轉換成各種資料型別並通過反射給引數賦值

008.PGSQL-日期型別變換大全

1. 日期往前推多少天日期往前推6個月跨年問題occur_period = to_char(to_timestamp(concat(left(p_occur_period,4),\'-\',right(p_occur_period,2)),\'yyyy-MM\') -interval\'6 month\' ,\'yyyymm\')