訊息處理之時間格式轉化 | Pandas 真的加速嗎？

阿新 • • 發佈：2021-10-16

前言

訊息中字串轉時間戳是比較耗時間的，Pandas 在這塊是尖刀，不過用法上還是要留點心的，不小心就白乾了一場。

訊息處理與耗時

單條資訊為JSON，大約572位元組
訊息時間為 '2021/09/28 00:03:45.227895784'
單次批量為 1000條

原始處理抽象程式碼如下：

def to_timestamp(dt):
    """dt轉化為時間戳"""
    return time.mktime((dt.timetuple()))


def make_key(message):
    """生成唯一建"""
    return '%s_%s' % (message.get(' 
VolId'), message.get('Id'))


def formatter(message):
    """
    簡單時間處理
    :param message:
        create_time: '2021/08/12 01:01:19.220461019' 
        Wait: '6333991us'
    :return:
    """
    wait = message.get('Wait')
    u_wait = wait[:-2]
    wait_delta = timedelta(microseconds=int(u_wait))

    log_time  
= message.get("create_time")
    u_time = log_time.split('.')[0]
    u_time_obj = datetime.strptime(u_time, '%Y/%m/%d %H:%M:%S')

    alert_begin = u_time_obj - wait_delta
    alert_ts = to_timestamp(alert_begin)
    message['begin_ts'] = alert_ts
    message['alert_ts'] = alert_ts
    message['alert_count 
'] = 0
    message['Wait'] = float(u_wait) / 1e6
    return message


def cls_message_pure(raws):
    """訊息分揀"""
    slow_dict = {}
    pending_dict = {}
    for message in raws:
        key = make_key(message)
        if message.get('flag') == 'Pending':
            pending_dict[key] = formatter(message)
        elif message.get('flag') == 'Slow':
            slow_dict[key] = formatter(message)
        else:
            pass
    return slow_dict, pending_dict

對訊息做初步處理，生產主鍵，訊息建立時間格式化，以及一些報警相關初始化。然後再做資料進行分揀，簡單統計耗時如下

def run(data):
    t = time.time()
    cls_message_pure(data)
    print("formatter dt items expand %s" %(time.time() - t))


formatter dt items expand 0.0396201610565

才1千條資料分揀，業務邏輯還沒上，就花了39毫秒，其實很慢了。

Pandas粉墨登場 | 批量加速？

對照 Pandas手冊，全部都能搞定，程式碼如下：

def pandas_formatter(raws):
    t = time.time()
    df = pandas.DataFrame(raws)
    print "init %s" % (time.time() - t)

    slow_dict = {}
    pending_dict = {}
    # 一行直接批量轉為時間戳，真香！
    df['create_time'] = pd.to_datetime(df['create_time'], utc='Asia/Shanghai').astype('int64')/1e9
    df['Wait'] = df['Wait'].str[:-2].astype('int64')/1e6
    df['alert_ts'] = df['begin_ts'] = df['create_time'] - df['Wait']
    df['alert_count'] = 0
    # 直接欄位合併生產主鍵，看起來也香(實際效能不太行)
    df['key'] = df['VolId'].str.cat(df['Id'].astype('str').str, sep='_')
    print "traslate %s" % (time.time() - t)


    # 直接分揀，看起來也香！(實際真呵呵)
    groups = df.groupby(df.flag)
    slow_df = groups.get_group('Slow')
    pending_df = groups.get_group('Pending')
    print "cls %s" % (time.time() - t)

    # 還有 to_dict，還真是貼心。(實際呵呵的 N 次方)
    for _, k in slow_df.iterrows():
        item = k.to_dict()
        slow_dict[item['key']] = item
    for _, k in pending_df.iterrows():
        item = k.to_dict()
        pending_dict[item['key']] = item

    return slow_dict, pending_dict

一套批量操作全搞定，感覺不錯，加個統計日誌，來驗證下：

init 0.0113050937653
traslate 0.0349180698395
cls 0.0542259216309
formatter run_pd items expand 0.358073949814

看到這個結果，我瞬間石化了！

各取所長，綜合實戰

個人認為 Pandas 比較擅長列處理，在時間處理上有大幅度優化。在列表與DataFrame 來回轉化耗時很大，按列直接輸出效能很高。最終程式碼如下：

def pandas_formatter2(raws):
    t = time.time()
    ts = list(i['create_time'] for i in raws)
    series = pd.to_datetime(ts, utc='Asia/Shanghai').astype('int64')/1e9
    df = series.to_list()

    slow_dict = {}
    pending_dict = {}
    for index, message in enumerate(raws):
        wait = message.get('Wait')
        u_wait = float(wait[:-2]) / 1e6
        message['alert_ts'] = message['begin_ts'] = df[index] - u_wait
        message['alert_count'] = 0
        message['Wait'] = u_wait

        key = make_key(message)
        if message.get('flag') == 'Pending':
            pending_dict[key] = message
        elif message.get('flag') == 'Slow':
            slow_dict[key] = message
        else:
            pass
    return slow_dict, pending_dict

測試結果如下：

formatter run_pd2 items expand 0.00854301452637

終於起到加速效果！

訊息處理之時間格式轉化 | Pandas 真的加速嗎？

前言訊息中字串轉時間戳是比較耗時間的，Pandas 在這塊是尖刀，不過用法上還是要留點心的，不小心就白乾了一場。

小程式爬坑（一）之時間格式IOS的相容

new Date()傳參差異化問題在安卓系統中，直接傳入標準格式字串，就可以轉換為Date格式資料

Spring Boot中是如何處理日期時間格式的

在springboot中開發RESTful介面，經常會遇到日期時間轉換相關的問題，例如我們明明輸入看起來很正常的日期時間字串，但是系統卻報錯無法解析：

dayjs怎麼處理UTC時間格式

技術標籤：02-JavaScriptdayjs 參考資料【dayjs官網】https://day.js.org/zh-CN/ 解決方式安裝依賴

Java處理特殊時間格式 2021-06-26T12:11:52.000+0000 轉為常見格式 2021-06-26 12:11:52

定義常量類 public class ExchangeConstants { public static final String FORMAT = \"yyyy-MM-dd HH:mm:ss\";

springmvc時間date轉換器（處理多種時間格式）

首先定義一個時間轉換器的類DateAdvice，在springmvc中DateFormat不能是陣列，所以就重寫CustomDateEditor類並且命名為

Pandas高階教程之:時間處理

目錄簡介時間分類TimestampDatetimeIndexdate_range 和 bdate_rangeorigin格式化PeriodDateOffset作為index切片和完全匹配時間序列的操作Shifting頻率轉換Resampling 重新取樣

Python 如何優雅的將數字轉化為時間格式的方法

pandas資料處理之繪圖的實現

Pandas是Python中非常常用的資料處理工具，使用起來非常方便。它建立在NumPy陣列結構之上，所以它的很多操作通過NumPy或者Pandas自帶的擴充套件模組編寫，這些模組用Cython編寫並編譯到C，並且在C上執行，因此也保證

13-Pandas資料預處理之資料轉換（applymap()、df.map()、df.replace()）

　　在資料分析中，根據需求，有時候需要將一些資料進行轉換，而在Pandas中，實現資料轉換的常用方法有：

13-Pandas資料預處理之資料轉換（啞變數編碼pd.get_dummies()）

說明：本片博文接上篇博文【 Pandas資料預處理之資料轉換（df.map()、df.replace()）】

vue 表格過濾器處理轉換後臺返回的這種時間格式2020-04-16T08:22:25.000+0000 2020-04-16 08:22:25

1 export default { 2name: \'MarkShow\', 3filters: { 4timefilters(val) { 5if (val === null || val === \'\') {

sql獲取某一天的時間與轉化格式為年-月-日

獲取某一天的時間，用法是使用cast ...as date，將字串轉化成日期比如說我想獲取上個月25號的日期：

ASP.NET Core小技巧（自定義路由、全域性異常處理、日期時間格式設定、空處理）

1.自定義路由 public void Configure(IApplicationBuilder app, IHostingEnvironment env) { if (env.IsDevelopment())

時間格式的處理，前端的時間顯示2020-12-22T16:02:00.000+0000

技術標籤：SpringBoot框架搭建Spring資料庫前端時間格式問題 ** 解決方案：在實體類上加註解

uniapp掘墓者之IOS時間格式

技術標籤：uni-appuniapp坑ios時間格式最近發現了一個小坑，特此記錄一下 let str = \'2020-01-20 15:34:24\';

java 時間間隔年數_Java新特性玩轉JDK8之時間日期處理類上

技術標籤：java 時間間隔年數視訊教程↓↓文章底部簡介：講解jdk8之後處理時間的api

將時間戳轉化為日期格式

技術標籤：javascript 程式碼如下 export function change(date) { //date是整數，否則要parseInt轉換

Java前後端時間格式的轉化方式

onFormat、DateTimeFormat使用從獲取時間傳到前端進行展示的時候，我們有時候可能無法得到一個滿意的時間格式的時間日期，在資料庫中顯示的是正確的時間格式，獲取出來卻變成了很醜的時間戳，@JsonFormat註解很好的

JDK8之時間日期處理類

JDK8之時間日期處理類 jdk8之前處理時間的api 時間處理再熟悉不過，SimpleDateFormat,Calendar等類

訊息處理之時間格式轉化 | Pandas 真的加速嗎？

​前言

訊息處理與耗時

Pandas粉墨登場 | 批量加速？

各取所長，綜合實戰

相關推薦

前言