spark sql簡單示例java

阿新 • • 發佈：2019-02-10

執行環境

叢集環境：CDH5.3.0

具體JAR版本如下：

spark版本：1.2.0-cdh5.3.0

hive版本：0.13.1-cdh5.3.0

hadoop版本：2.5.0-cdh5.3.0

spark sql的JAVA版簡單示例

spark sql直接查詢JSON格式的資料

spark sql的自定義函式

spark sql查詢hive上面的表

import java.util.ArrayList;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.api.java.DataType;
import org.apache.spark.sql.api.java.JavaSQLContext;
import org.apache.spark.sql.api.java.JavaSchemaRDD;
import org.apache.spark.sql.api.java.Row;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.hive.api.java.JavaHiveContext;

/**
* 注意：
* 使用JavaHiveContext時
* 1:需要在classpath下面增加三個配置檔案：hive-site.xml,core-site.xml,hdfs-site.xml
* 2:需要增加postgresql或mysql驅動包的依賴
* 3:需要增加hive-jdbc,hive-exec的依賴
*
*/
public class SimpleDemo {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("simpledemo").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaSQLContext sqlCtx = new JavaSQLContext(sc);
JavaHiveContext hiveCtx = new JavaHiveContext(sc);
// testQueryJson(sqlCtx);
// testUDF(sc, sqlCtx);
testHive(hiveCtx);
sc.stop();
sc.close();
}

//測試spark sql直接查詢JSON格式的資料
public static void testQueryJson(JavaSQLContext sqlCtx) {
JavaSchemaRDD rdd = sqlCtx.jsonFile("file:///D:/tmp/tmp/json.txt");
rdd.printSchema();

// Register the input schema RDD
rdd.registerTempTable("account");

JavaSchemaRDD accs = sqlCtx.sql("SELECT address, email,id,name FROM account ORDER BY id LIMIT 10");
List<Row> result = accs.collect();
for (Row row : result) {
System.out.println(row.getString(0) + "," + row.getString(1) + "," + row.getInt(2) + ","
+ row.getString(3));
}

JavaRDD<String> names = accs.map(new Function<Row, String>() {
@Override
public String call(Row row) throws Exception {
return row.getString(3);
}
});
System.out.println(names.collect());
}

//測試spark sql的自定義函式
public static void testUDF(JavaSparkContext sc, JavaSQLContext sqlCtx) {
// Create a account and turn it into a Schema RDD
ArrayList<AccountBean> accList = new ArrayList<AccountBean>();
accList.add(new AccountBean(1, "lily", "

[email protected]", "gz tianhe"));
JavaRDD<AccountBean> accRDD = sc.parallelize(accList);

JavaSchemaRDD rdd = sqlCtx.applySchema(accRDD, AccountBean.class);

rdd.registerTempTable("acc");

// 編寫自定義函式UDF
sqlCtx.registerFunction("strlength", new UDF1<String, Integer>() {
@Override
public Integer call(String str) throws Exception {
return str.length();
}
}, DataType.IntegerType);

// 資料查詢
List<Row> result = sqlCtx.sql("SELECT strlength('name'),name,address FROM acc LIMIT 10").collect();
for (Row row : result) {
System.out.println(row.getInt(0) + "," + row.getString(1) + "," + row.getString(2));
}
}

//測試spark sql查詢hive上面的表
public static void testHive(JavaHiveContext hiveCtx) {
List<Row> result = hiveCtx.sql("SELECT foo,bar,name from pokes2 limit 10").collect();
for (Row row : result) {
System.out.println(row.getString(0) + "," + row.getString(1) + "," + row.getString(2));
}
}
}

spark sql簡單示例java

spark sql簡單示例java

spark sql簡單示例

groovy執行sql簡單示例

Spark Sql 簡單介紹

用java編寫spark程式，簡單示例及執行

JAVA入門[20]-Hibernate簡單示例

Spark的Streaming和Spark的SQL簡單入門學習

使用java如何操作elasticsearch？簡單示例。

java GUI 學生圖書管理簡單示例

轉：HBase Java簡單示例-2013年的

K3/Cloud點按鈕打開單據，列表，動態表單，簡單賬表和直接Sql報表示例

二、spark SQL互動scala操作示例

Java 8 常見函式式介面使用簡單示例

Java 工廠方法模式的簡單示例

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

簡單的Java繼承示例！

Spark WordCount簡單案例（java,scala版）

兩種模型選擇和超引數調整方法及Spark MLlib使用示例(Scala/Java/Python)

由一個簡單示例引出java繼承中父子類成員變數共享問題以及super的使用

flex+blazeds+java後臺訊息推送(簡單示例)

spark sql簡單示例java

相關推薦