《Spark 官方文件》
我來翻譯Spark Programming Guide: detailed overview of Spark in all supported languages (Scala, Java, Python, R)
翻譯好的翻譯檔案怎麼上傳?
相關推薦
《Spark官方文件》Spark操作指南
原文連結 譯者:小村長 Spark–Quick Start 本專案是 Apache Spark官方文件的中文翻譯版,致力於打造一個全新的大資料處理平臺來滿足大資料處理和分析的各個使用場景,本次翻譯主要針對對Spark感興趣和致力於從事大資料方法開發的人員提供有價值的中文資料,希望能夠對大家
《Spark 官方文件》
我來翻譯Spark Programming Guide: detailed overview of Spark in all supported languages (Scala, Java, Python, R) 翻譯好的翻譯檔案怎麼上傳?
《Spark 官方文件》Spark快速入門
快速入門 本教程是對Spark的一個快速簡介。首先,我們通過Spark的互動式shell介紹一下API(主要是Python或Scala),然後展示一下如何用Java、Scala、Python寫一個Spark應用。更完整參考看這裡:programming guide 首先,請到Spark website下載一
《Spark 官方文件》硬體配置
硬體配置 Spark開發者們常常被問到的一個問題就是:如何為Spark配置硬體。我們通常會給出以下的建議,但具體的硬體配置還依賴於實際的使用情況。 儲存系統 因為絕大多數Spark作業都很可能是從外部儲存系統載入輸入資料(如:HDFS或者HBase),所以最好把Spark部署在離這些儲存比較近的地方。建
《Spark 官方文件》機器學習庫(MLlib)指南
我們推薦您使用spark.ml,因為基於DataFrames的API更加的通用而且靈活。不過我們也會繼續支援spark.mllib包。使用者可以放心使用,spark.mllib還會持續地增加新的功能。不過開發者需要注意,如果新的演算法能夠適用於機器學習管道的概念,就應該將其放到spark.ml包中,如:特
《Spark官方文件》叢集模式概覽
叢集模式概覽 本文簡要描述了Spark在叢集中各個元件如何執行。想了解如何在叢集中啟動Spark應用,請參考application submission guide 。 元件 Spark應用在叢集上執行時,包括了多個獨立的程序,這些程序之間通過你的主程式(也叫作驅動器,即:driver)中的SparkCo
《Spark官方文件》提交Spark應用
提交Spark應用 spark-submit指令碼在Spark的bin目錄下,可以利用此指令碼向叢集提交Spark應用。該指令碼為所有Spark所支援的叢集管理器( cluster managers)提供了統一的介面,因此,你基本上可以用同樣的配置和指令碼,向不同型別的叢集管理器提交你的應用。 打包應用程
《Spark官方文件》Spark Streaming程式設計指南
spark-1.6.1 [原文地址] Spark Streaming程式設計指南 概覽 Spark Streaming是對核心Spark API的一個擴充套件,它能夠實現對實時資料流的流式處理,並具有很好的可擴充套件性、高吞吐量和容錯性。Spark Streaming支援從多種資料來源提取資
《Spark 官方文件》Spark程式設計指南
概述 總體上來說,每個Spark應用都包含一個驅動器(driver)程式,驅動器執行使用者的main函式,並在叢集上執行各種並行操作。 Spark最重要的一個抽象概念就是彈性分散式資料集(resilient distributed dataset – RDD),RDD是一個可分割槽的元素集合,其包含的元素可
《Spark官方文件》在YARN上執行Spark
原文連結 Spark在 0.6.0版本後支援在YARN(hadoop NextGen)上執行,並且在後續版本中不斷改進。 在YARN上啟動Spark 首先,確認 HADOOP_CONF_DIR或YARN_CONF_DIR指向的包含了Hadoop叢集的配置檔案。這些配置用於操作HDFS和連線Y
《Spark 官方文件》Spark安全性
Spark安全性 Spark目前已經支援以共享祕鑰的方式進行身份認證。開啟身份認證配置引數為 spark.authenticate 。這個配置引數決定了Spark通訊協議是否使用共享祕鑰做身份驗證。驗證過程就是一個基本的握手過程,確保通訊雙方都有相同的祕鑰並且可以互相通訊。如果共享祕鑰不同,雙方是不允許通訊
《Spark 官方文件》Spark作業排程
概覽 Spark有好幾種計算資源排程的方式。首先,回憶一下叢集模式概覽(cluster mode overview)中每個Spark應用(包含一個SparkContext例項)中運行了一些其獨佔的執行器(executor)程序。叢集管理器提供了Spark應用之間的資源排程(scheduling across
《Spark 官方文件》Spark獨立模式
Spark獨立模式 Spark除了可以在Mesos和YARN叢集上執行之外,還支援一種簡單的獨立部署模式。獨立部署模式下,你既可以手工啟動(手動執行master和workers),也可以利用我們提供的啟動指令碼(launch scripts)。同時,獨立部署模式下,你可以在單機上執行這些程式,以方便測試。
《Spark 官方文件》Spark SQL, DataFrames 以及 Datasets 程式設計指南
spark-1.6.0 [原文地址] Spark SQL, DataFrames 以及 Datasets 程式設計指南 概要 Spark SQL是Spark中處理結構化資料的模組。與基礎的Spark RDD API不同,Spark SQL的介面提供了更多關於資料的結構資訊和計算任務的執
《Spark 官方文件》在Amazon EC2上執行Spark
在Amazon EC2上執行Spark Spark的ec2目錄下有一個spark-ec2指令碼,可以幫助你在Amazon EC2上啟動、管理、關閉Spark叢集。該指令碼能在EC2叢集上自動設定好Spark和HDFS。本文將會詳細描述如何利用spark-ec2指令碼來啟動和關閉叢集,以及如何在叢集提交作業。
《Spark 官方文件》Spark配置
Spark配置 Spark有以下三種方式修改配置: Spark properties (Spark屬性)可以控制絕大多數應用程式引數,而且既可以通過 SparkConf 物件來設定,也可以通過Java系統屬性來設定。 Environment variables (環境變數)可以指定一些各個機器相關的設定,
《Spark 官方文件》監控和工具
spark-1.6.0 原文地址 監控和工具 監控Spark應用有很多種方式:web UI,metrics 以及外部工具。 Web介面 每個SparkContext都會啟動一個web UI,其預設埠為4040,並且這個web UI能展示很多有用的Spark應用相關資訊。包括: 一個stage
《Spark 官方文件》在YARN上執行Spark
在YARN上執行Spark 對 YARN (Hadoop NextGen) 的支援是從Spark-0.6.0開始的,後續的版本也一直持續在改進。 在YARN上啟動 首先確保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 變數指向一個包含Hadoop叢集客戶端配置檔案的目錄。這些配置用於
《Spark 官方文件》Spark調優
Spark調優 由於大部分Spark計算都是在記憶體中完成的,所以Spark程式的瓶頸可能由叢集中任意一種資源導致,如:CPU、網路頻寬、或者記憶體等。最常見的情況是,資料能裝進記憶體,而瓶頸是網路頻寬;當然,有時候我們也需要做一些優化調整來減少記憶體佔用,例如將RDD以序列化格式儲存(storing RD
《Spark 官方文件》在Mesos上執行Spark
spark-1.6.0 [原文地址] 在Mesos上執行Spark Spark可以在由Apache Mesos 管理的硬體叢集中執行。 在Mesos叢集中使用Spark的主要優勢有: 可以在Spark以及其他框架(frameworks)之間動態劃分資源。 可以同時部署多個Spark例項,且各