Spark專案學習-慕課網日誌分析-days3-External Data Source 外部資料來源
1. External Data Source 外部資料來源
1)每一個spark程式以載入資料開始,以輸出資料結束
2)方便快速的從不同的資料來源(json、parquet/rdbms),經過混合處理,在將處理結果以特定的格式,寫回到指定的系統(HDFS S3)中
處理過程:
1)要從關係型資料庫匯入大資料系統,然後處理完再導回原有資料庫
目標:
1)對於開發者:不需要把程式碼合併到spark原始碼中
2)非常方便的載入和讀取
spark.read.format(format) 讀
people.write.format("parquet").save("path") 寫 格式+路徑
2. 操作Parquet檔案資料
1)載入資料 spark.read.format("parquet").load(path)
2)寫入資料 df.write.format("parquet").save(path)
3. 操作Hive表資料
1)Spark.table(tableNmae) 讀Hive表資料
2)df.write.saveAsTable(tableName) 寫入資料
3)spark.sql("select deptno,count(1)from emp group by deptno").filter("deptno is not null").write.saveAs
4)spark.tbale("在這裡寫入sql語句")
5)注意設定分割槽數量,預設是200
spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")
4. 操作Mysql資料庫等關係型資料庫
5.關聯MySQL和Hive表資料關聯操作