1. 程式人生 > >二、spark SQL互動scala操作示例

二、spark SQL互動scala操作示例

一、安裝spark

spark SQL是spark的一個功能模組,所以我們事先要安裝配置spark,參考:

https://www.cnblogs.com/lay2017/p/10006935.html

二、資料準備

演示操作將從一個類似json檔案裡面讀取資料作為資料來源,並初始化為dataframe,我們準備一個user.json檔案

在/usr/local/hadoop/spark目錄(可以自定義目錄)下新建一個user.json檔案內容如下:

{"id" : "1201", "name" : "satish", "age" : "25"}
{"id" : "1202", "name" : "krishna", "age" : "28"}
{
"id" : "1203", "name" : "amith", "age" : "39"} {"id" : "1204", "name" : "javed", "age" : "23"} {"id" : "1205", "name" : "prudvi", "age" : "23"}

檔案內容類似json,但是不是json,按照一行一行的結構

三、spark SQL示例

先啟動spark-shell

spark-shell

dataFrame操作

初始化一個SQLContext,傳入sparkContext

var sqlContext = new org.apache.spark.sql.SQLContext(sc)

讀取user.json檔案作為dataFrame

var dfs = sqlContext.read.json("/usr/local/hadoop/spark/user.json")

查詢age > 25的name的資料

dfs.filter(dfs("age") > 25).select("name").show()

你會看到