datasSet學習
阿新 • • 發佈:2019-01-08
1、dataset官方定義:
A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.
Each Dataset also has an untyped view called a DataFrame, which is a Dataset of Row.
翻譯:
Dataset是特定域物件中的強型別集合,它可以使用函式或者相關操作並行地進行轉換等操作。
每個Dataset都有一個稱為DataFrame的非型別化的檢視,這個檢視是行的資料集
2、RDD也是可以並行化的操作,DataSet和RDD主要的區別是:DataSet是特定域的物件集合;然而RDD是任何物件的集合。DataSet的API總是強型別的;而且可以利用這些模式進行優化,然而RDD卻不行。
3、 datafrmae -> dataSet : df.as(String)
dataset -> dataframe :dst.toDF()
- 建立一個ds
val data = spark.read.text("dataSet/userSet.txt").as[String]
val personDS = Seq(("Max", 33), ("Adam", 32), ("Muller", 62)).toDS
personDS.show
withNames = personDS.toDF("name", "age").as[(String, Int)]
withNames.show
閱讀的相關部落格: