如何避免spark dataframe的JOIN操作之後產生重複列（Reference '***' is ambiguous問題解決）

阿新 • • 發佈：2019-01-02

spark datafrme提供了強大的JOIN操作。

但是在操作的時候，經常發現會碰到重複列的問題。如下：

如分別建立兩個DF，其結果如下：

val df = sc.parallelize(Array(
("one", "A", 1), ("one", "B", 2), ("two", "A", 3), ("two", "B", 4)
)).toDF("key1", "key2", "value")
df.show()

+----+----+-----+
|key1|key2|value|
+----+----+-----+
| one| A| 1|
| one| B| 2|
| two| A| 3|
| two| B| 4|
+----+----+-----+

val df2 = sc.parallelize(Array(
("one", "A", 5), ("two", "A", 6)
)).toDF("key1", "key2", "value2")
df2.show()

+----+----+------+
|key1|key2|value2|
+----+----+------+
| one| A| 5|
| two| A| 6|
+----+----+------+

對其進行JOIN操作之後，發現多產生了KEY1和KEY2這樣的兩個欄位。

val joined = df.join(df2, df("key1") === df2("key1") && df("key2") === df2("key2"), "left_outer")
joined.show()

+----+----+-----+----+----+------+
|key1|key2|value|key1|key2|value2|
+----+----+-----+----+----+------+
| two| A| 3| two| A| 6|
| two| B| 4|null|null| null|
| one| A| 1| one| A| 5|
| one| B| 2|null|null| null|
+----+----+-----+----+----+------+

假如這兩個欄位同時存在，那麼就會報錯，如下：org.apache.spark.sql.AnalysisException: Reference 'key2' is ambiguous

因此，網上有很多關於如何在JOIN之後刪除列的，後來經過仔細查詢，才發現通過修改JOIN的表示式，完全可以避免這個問題。而且非常簡單。主要是通過Seq這個物件來實現。

df.join(df2, Seq("key1", "key2"), "left_outer").show()

+----+----+-----+------+
|key1|key2|value|value2|
+----+----+-----+------+
| two| A| 3| 6|
| two| B| 4| null|
| one| A| 1| 5|
| one| B| 2| null|
+----+----+-----+------+

通過實踐，完全成功！

如何避免spark dataframe的JOIN操作之後產生重複列（Reference '***' is ambiguous問題解決）

如何避免spark dataframe的JOIN操作之後產生重複列（Reference '***' is ambiguous問題解決）

關於Spark實際操作的一些實用乾貨（持續更新中.....)

RabbitMQ消息隊列（本人親自中文翻譯）

數據結構之散列（開放定址法）

使用無鎖隊列（環形緩沖區）註意事項

【BZOJ】1013 [JSOI2008]球形空間產生器sphere（高斯消元）

BZOJ 1013: [JSOI2008]球形空間產生器sphere（高斯消元）

【LeetCode題解】232_用棧實現隊列（Implement-Queue-using-Stacks）

java操作poi生成excel.xlsx（設定下拉框）下載本地和前端下載

【leetcode】從排序陣列中刪除重複項（C、Python解答）

C語言學習：檢查重複數字（還存在一點問題）

字串操作函式的模擬實現（求大佬指教）

sql 刪除表中多餘的重複記錄（多個欄位），只保留一條記錄

使用jquery操作元素的css樣式（獲取、修改等等）

查詢表中多餘的重複記錄（多個欄位）

SpannableString使用注意（資料重複時，顯示異常問題解決）

單鏈表基本操作的C語言實現（鏈式儲存結構）

libcurl post／get上傳下載檔案以及斷點下載（操作libcurl 實現斷點下載（續點續傳））

原始碼篇（每次pod install之後，pods scheme 自動消失問題的解決）

判斷陣列中是否有重複數字（two ways +位運算）

如何避免spark dataframe的JOIN操作之後產生重複列（Reference '***' is ambiguous問題解決）

相關推薦