1. 程式人生 > 其它 >spark學習筆記一:初識spark

spark學習筆記一:初識spark

spark處理大資料及資料探勘優點:

1.速度快:Apache Spark擁有先進的DAG排程器、查詢優化器以及物理執行引擎從而高效能的實現批處理和流資料處理。

2.易用性:(可以使用Java,Scala,Python,R以及SQL快速的寫Spark應用)Spark提供80個以上高階運算元便於執行並行應用,並且可以使用Scala、Python、R以及SQL的shell端互動式執行Spark應用。

3.通用性:(支援SQL,流資料處理以及複雜分析)Spark擁有一系列庫,包括SQL和DataFrame,用於機器學習的MLib,支援圖計算GraphX以及流計算模組Streaming。

4.支援多種模式執行:(平臺包括Hadoop,Apache Mesos,Kubernete,standalone或者雲上,也可以獲取各種資料來源上的資料)Spark可以直接執行以自身的

standalone叢集模式執行,也可以在亞馬遜EC2上執行,不過企業級用的比較多的是Hadoop Yarn模式,當然也有MesosKubernetes模式。可以獲取不限於來自於HDFSApache CassandraApache HBaseApache Hive等上百種資料來源。

https://www.cnblogs.com/liuys635/p/12020239.html(spark入門實戰資料)