ALINK(十六)：資料匯入與匯出 (七)與 Dataframe 互操作

阿新 • • 發佈：2021-06-16

https://github.com/alibaba/Alink/blob/master/docs/pyalink/pyalink-dataframe.md

與 Dataframe 互操作

PyAlink 提供了與pandas DataFrame的互轉操作，能夠方便地使用 Python 生態中已有的強大工具。 pandas 的 DataFrame 是 Python 已有生態中表示、儲存二維表的十分理想的選擇，DataFrame 自身提供了一定的資料處理與視覺化能力，同時又可以方便的轉換為 Python 中的其他資料結構。

BatchOperator 轉 Dataframe

對於各個BatchOperator，提供了collectToDataframe()

的成員方法，將BatchOperator內的DataSet轉換為 DataFrame；直接使用print()方法也可以直接以DataFrame的形式進行列印。

source = CsvSourceBatchOp()\
    .setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string")\
    .setFilePath("https://alink-release.oss-cn-beijing.aliyuncs.com/data-files/iris.csv")
res = source.select(["sepal_length", "sepal_width"])
df = res.collectToDataframe()
# Operations with df
res.print()

在BatchOperator中也提供了靜態方法collectoToDataframes可以對多個BatchOperator同時進行轉換。每一次單個BatchOperator呼叫collectoToDataframe都會導致作業圖進行一次計算，多次呼叫時將有效率問題，更重要的是，有些演算法在多次呼叫時可能結果不一致，例如取樣操作等。此時可以使用這個靜態方法來解決這些問題。

source = CsvSourceBatchOp() \
    .setSchemaStr(
    "sepal_length double, sepal_width double, petal_length double, petal_width double, category string") \
    .setFilePath("https://alink-release.oss-cn-beijing.aliyuncs.com/data-files/iris.csv")

split = SplitBatchOp().setFraction(0.1).linkFrom(source)
[d0, d1, d2] = collectToDataframes(source, split, split.getSideOutput(0))
print(d0, d1, d2)

Dataframe 轉 BatchOperator/StreamOperator

對於使用者擁有的 Dataframe 資料，PyAlink 也提供了向 BatchOperator/StreamOperator 轉換的方法。具體說來，BatchOperator/StreamOperator中都具有靜態方法fromDataframe(df, schemaStr)，其中df是 DataFrame 資料，schemaStr是由資料列名和型別構成的 schema 字串。

schema = "f_string string,f_long long,f_int int,f_double double,f_boolean boolean"
op = BatchOperator.fromDataframe(df, schema)
op.print()

op = StreamOperator.fromDataframe(df, schema)
op.print(key="op")
StreamOperator.execute()

同時，PyAlink 也提供了靜態方法來進行轉換：dataframeToOperator(df, schemaStr, opType)，這裡df和schemaStr引數與上文相同，opType取值為"batch"或"stream"。

使用注意

從 BatchOperator 向 Dataframe 轉換時：如果 BatchOperator 所儲存的資料中有空值null，那麼轉換後的 Dataframe 將無法保證完全轉換為 BatchOperator 的列型別。此時，對應的列需要手動進行處理。
從 Dataframe 向 BatchOperator 轉換時：如果 Dataframe 中有空值時，需要預先替換為None，這樣才能正確地進行之後的處理。
當資料量大時，由於資料轉換需要進行大量的 Python 與 Java 資料之間的交換，效率將會受到影響。

ALINK(十六)：資料匯入與匯出 (七)與 Dataframe 互操作

與 Dataframe 互操作

BatchOperator 轉 Dataframe

Dataframe 轉 BatchOperator/StreamOperator

使用注意

ALINK(十六)：資料匯入與匯出 (七)與 Dataframe 互操作

ALINK(十四)：資料處理（一）資料拆分 (SplitBatchOp)

ALINK(十八)：資料處理（四）缺失值處理(二)缺失值填充訓練 (ImputerTrainBatchOp)

Alink漫談(十六) ：Word2Vec原始碼分析之建立霍夫曼樹

Exchange 2013學習筆記十六：公用資料夾

ALINK(十一)：載入資料集 (四)Table資料讀入 (TableSourceBatchOp)

ALINK(十二)：載入資料集 (五)記憶體資料讀入 (MemSourceBatchOp)

ALINK(二十一)：資料處理（七）數值型資料處理（三）絕對值最大化 (MaxAbsScalerTrainBatchOp/MaxAbsScalerPredictBatchOp)

ALINK(二十六)：特徵工程（四）特徵離散化（四）二值化 (BinarizerBatchOp)

ALINK(三十六)：模型評估（一）二分類評估 (EvalBinaryClassBatchOp)

Redis系列（十）：資料結構Set原始碼解析和SADD、SINTER、SDIFF、SUNION、SPOP命令

資料準備1 資料匯入、匯出

MySQL學習筆記十六：事件（定時任務）

量化投資_EasyLanguage/PowerLanguage教學課程【第一篇基礎】【第十六章資料資訊】

HDL/FPGA學習筆記二十一：verilog 中的可綜合與不可綜合

ISLR讀書筆記十六：最大邊際分類器（maximal margin classifier）

Mysql基礎（十六)：mysql效能優化（一）

.Net Core3.0 WebApi 專案框架搭建十六：使用Serilog替換掉Log4j

資料庫原理實驗六：SQL Sever 2005的安全與保護

十六：SQL注入之查詢方式及報錯盲注

ALINK(十六)：資料匯入與匯出 (七)與 Dataframe 互操作

與 Dataframe 互操作

BatchOperator 轉 Dataframe

Dataframe 轉 BatchOperator/StreamOperator

使用注意

相關推薦