二、spark SQL互動scala操作示例
阿新 • • 發佈:2018-11-23
一、安裝spark
spark SQL是spark的一個功能模組,所以我們事先要安裝配置spark,參考:
https://www.cnblogs.com/lay2017/p/10006935.html
二、資料準備
演示操作將從一個類似json檔案裡面讀取資料作為資料來源,並初始化為dataframe,我們準備一個user.json檔案
在/usr/local/hadoop/spark目錄(可以自定義目錄)下新建一個user.json檔案內容如下:
{"id" : "1201", "name" : "satish", "age" : "25"} {"id" : "1202", "name" : "krishna", "age" : "28"} {"id" : "1203", "name" : "amith", "age" : "39"} {"id" : "1204", "name" : "javed", "age" : "23"} {"id" : "1205", "name" : "prudvi", "age" : "23"}
檔案內容類似json,但是不是json,按照一行一行的結構
三、spark SQL示例
先啟動spark-shell
spark-shell
dataFrame操作
初始化一個SQLContext,傳入sparkContext
var sqlContext = new org.apache.spark.sql.SQLContext(sc)
讀取user.json檔案作為dataFrame
var dfs = sqlContext.read.json("/usr/local/hadoop/spark/user.json")
查詢age > 25的name的資料
dfs.filter(dfs("age") > 25).select("name").show()
你會看到