準備資料集用於flink學習

阿新 • • 發佈：2020-11-14

歡迎訪問我的GitHub

內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；

在學習和開發flink的過程中，經常需要準備資料集用來驗證我們的程式，阿里雲天池公開資料集中有一份淘寶使用者行為資料集，稍作處理後即可用於flink學習；

下載

下載地址：
https://tianchi.aliyun.com/dataset/dataDetail?spm=a2c4e.11153940.0.0.671a1345nJ9dRR&dataId=649
如下圖所示，點選紅框中的圖示下載(名為UserBehavior.csv.zip的檔案太大無法在excel開啟，因此下載體積小一些的UserBehavior.csv)：
該CSV檔案的內容，一共有五列，每列的含義如下表：

列名稱	說明
使用者ID	整數型別，序列化後的使用者ID
商品ID	整數型別，序列化後的商品ID
商品類目ID	整數型別，序列化後的商品所屬類目ID
行為型別	字串，列舉型別，包括('pv', 'buy', 'cart', 'fav')
時間戳	行為發生的時間戳
時間字串	根據時間戳欄位生成的時間字串

下載完畢後用excel開啟，如下圖所示：

增加一個欄位

為了便於檢查資料，接下來在時間戳欄位之後新增一個欄位，內容是將該行的時間戳轉成時間字串

如下圖，在F列的第一行位置輸入表示式，將E1的時間戳轉成字串：

上圖紅框中的表示式內容如下：

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

！！！有個問題要格外注意！！！：上述表示式中，由於8*3600的作用，得到的時間字串實際上是東八區時區的時間，在flink sql中，如果用DATE_FORMAT函式計算timestamp也能得到時間字串，但是這個字串是格林尼治時區，此時兩個時間字串的值就不同了，例如從F列看2017/11/12和2017/11/13各一條記錄，但是DATE_FORMAT函式計算timestamp得到的卻是2017/11/12有兩條記錄，解決這個問題的辦法就是將表示式中的8*3600去掉，大家都用格林尼治時區；

表示式生效後，F1的內容就是E1的時間字串，接下來F列的所有記錄都作轉換，滑鼠放在下圖紅框位置時，會出現十字架標誌，在此標誌上雙擊滑鼠：

5. 完成後如下圖，F列的時間資訊更利於我們開發過程中核對資料：

修復亂序

此時的CSV檔案中的資料並不是按時間欄位排序的，如下圖：
flink在處理上述資料時，由於亂序問題可能會導致計算結果不準，以上圖為例，在處理紅框2中的資料時，紅框3所對應的視窗早就完成計算了，雖然flink的watermark可以容忍一定程度的亂序，但是必須將容忍時間調整為7天才能將紅框3的視窗保留下來不觸發，這樣的watermark調整會導致大量資料無法計算，因此，需要將此CSV的資料按照時間排序再拿來使用；
如下圖操作即可完成排序：

4. 完成排序後如下圖所示：

至此，一份淘寶使用者行為資料集就準備完畢了，接下來的文章將會用此資料進行flink相關的實戰；

直接下載準備好的資料

為了便於您快速使用，上述調整過的CSV檔案我已經上傳到CSDN，地址：
https://download.csdn.net/download/boling_cavalry/12381698
也可以在我的Github下載，地址：
https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z

歡迎關注公眾號：程式設計師欣宸

微信搜尋「程式設計師欣宸」，我是欣宸，期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

準備資料集用於flink學習

歡迎訪問我的GitHub https://github.com/zq2599/blog_demos 內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；

cnstream pipeline啟動到準備資料過程的原始碼學習筆記(二）：osd模組

本文是對cnstream程式碼的學習筆記 git程式碼：https://github.com/Cambricon/CNStream 寒武紀開發者論壇： http://forum.cambricon.com/list-47-1.html

（pytorch-深度學習系列）使用softmax迴歸實現對Fashion-MNIST資料集進行分類-學習筆記

使用softmax迴歸實現對Fashion-MNIST資料集進行分類 import torch from torch import nn from torch.nn import init

（pytorch-深度學習系列）pytorch實現多層感知機（自動定義模型）對Fashion-MNIST資料集進行分類-學習筆記

pytorch實現多層感知機（自動定義模型）對Fashion-MNIST資料集進行分類匯入模組：

nyuv240類資料集_機器學習：資料劃分與交叉驗證

技術標籤：nyuv240類資料集函式1：train_test_split from sklearn.model_selection import train_test_split # 資料劃分所需的函式

深度學習與Pytorch入門實戰（十六）情感分類實戰（基於IMDB資料集）

筆記摘抄提前安裝torchtext和scapy，執行下面語句（壓縮包地址連結：https://pan.baidu.com/s/1_syic9B-SXKQvkvHlEf78w 提取碼：ahh3）：

Flink(三) Flink 程式設計模型之建立和載入資料集

Flink(三) Flink 程式設計模型之建立和載入資料集所有的 Flink 程式都是由三部分組成的： Source 、Transformation 和 Sink。

Mercari資料集——機器學習&深度學習視角

作者|Yogeeshwari S 編譯|VK 來源|Towards Data Science 我很高興與大家分享我的機器學習和深度學習經驗，同時我們將在一個Kaggle競賽得到解決方案。學習過程的分析也是非常直觀，具有娛樂性和挑戰性。希望這個部落格

深度學習-資料集增強-方法

Data Augmentation--資料增強解決你有限的資料集 can my “state-of-the-art” neural network perform well with the meagre amount of data I have?

深度學習資料集增強-程式碼

\"\"\" 增強資料集 \"\"\" from PIL import Image from PIL import ImageEnhance import os import cv2 import numpy as np

為深度學習模型載入自定義影象資料集：第1部分

作者|Renu Khandelwal 編譯|VK 來源|Towards Data Science 在本文中，你將學習如何載入自定義資料和建立影象序列和測試資料集，作為深度學習模型的輸入。

機器學習之 KNN近鄰演算法（二）鳶尾花資料集訓練

一、鳶尾花資料集 from sklearn.datasets import load_iris，通過datas= load_iris()獲得鳶尾花資料集用於測試

pytorch學習教程之自定義資料集

自定義資料集在訓練深度學習模型之前，樣本集的製作非常重要。在pytorch中，提供了一些介面和類，方便我們定義自己的資料集合，下面完整的試驗自定義樣本集的整個流程。

遷移學習 colab 完整示例:fruits-360 資料集

這裡當前目錄下已經有fruits-360這個資料集. 關於呼叫資料集的方法可以檢視我另一篇文章.

在機器學習和深度學習中建立屬於自己的資料集

技術標籤：機器學習深度學習python機器學習深度學習 def CreateDataSet(file_path): """ demo :

C#中的深度學習（二）：預處理識別硬幣的資料集

在文章中，我們將對輸入到機器學習模型中的資料集進行預處理。這裡我們將對一個硬幣資料集進行預處理，以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務:

【機器學習實戰】-- Titanic 資料集（3）-- 邏輯迴歸

1. 寫在前面: 本篇屬於實戰部分，更注重於演算法在實際專案中的應用。如需對邏輯迴歸演算法本身有詳細的瞭解，可參考以下連結，在本人學習的過程中，起到了很大的幫助：

機器學習演算法-樸素貝葉斯（二）：模擬離散資料集--貝葉斯分類（程式碼附詳細註釋）

技術標籤：樸素貝葉斯機器學習 step 1：庫函式匯入 import random import numpy as np # 使用基於類目特徵的樸素貝葉斯

【機器學習實戰】-- Titanic 資料集（4）-- 支援向量機

1. 寫在前面: 本篇屬於實戰部分，更注重於演算法在實際專案中的應用。如需對感知機演算法本身有進一步的瞭解，可參考以下連結，在本人學習的過程中，起到了很大的幫助：

準備資料集用於flink學習

歡迎訪問我的GitHub

下載

增加一個欄位

修復亂序

直接下載準備好的資料

歡迎關注公眾號：程式設計師欣宸

相關推薦