Spark整合Mongodb的方法
阿新 • • 發佈:2020-01-08
Spark介紹
按照官方的定義,Spark 是一個通用,快速,適用於大規模資料的處理引擎。
通用性:我們可以使用Spark SQL來執行常規分析, Spark Streaming 來流資料處理, 以及用Mlib來執行機器學習等。Java,python,scala及R語言的支援也是其通用性的表現之一。
快速: 這個可能是Spark成功的最初原因之一,主要歸功於其基於記憶體的運算方式。當需要處理的資料需要反覆迭代時,Spark可以直接在記憶體中暫存資料,而無需像Map Reduce一樣需要把資料寫回磁碟。官方的資料表明:它可以比傳統的Map Reduce快上100倍。
大規模:原生支援HDFS,並且其計算節點支援彈性擴充套件,利用大量廉價計算資源併發的特點來支援大規模資料處理。
環境準備
mongodb下載
解壓安裝
啟動mongodb服務
$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log
pom依賴
<dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2.11</artifactId> <version>${spark.version}</version> </dependency>
例項程式碼
object ConnAppTest { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[2]") .appName("ConnAppTest") .config("spark.mongodb.input.uri","mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸入 .config("spark.mongodb.output.uri","mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸出 .getOrCreate() // 生成測試資料 val documents = spark.sparkContext.parallelize((1 to 10).map(i => Document.parse(s"{test: $i}"))) // 儲存資料到mongodb MongoSpark.save(documents) // 載入資料 val rdd = MongoSpark.load(spark) // 列印輸出 rdd.show } }
總結
以上所述是小編給大家介紹的Spark整合Mongodb的方法,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回覆大家的。在此也非常感謝大家對我們網站的支援!