spark部署所需硬體資源

阿新 • • 發佈：2018-12-31

儲存系統

由於大多數Spark作業可能必須從外部儲存系統（例如Hadoop檔案系統或HBase）讀取輸入資料，因此將其儘可能靠近此係統放置非常重要。我們建議如下：
如果可能的話，在與HDFS相同的節點上執行Spark。最簡單的方法是建立一個Spark 獨立模式叢集同一節點上，並配置Spark和Hadoop的記憶體和CPU的使用情況，以避免相互干擾（Hadoop的，相關的選項是 mapred.child.java.opts為每個任務的記憶體和mapreduce.tasktracker.map.tasks.maximum 和mapreduce.tasktracker.reduce.tasks.maximum

的任務數）。或者，您可以在公共叢集管理器（如Mesos或 Hadoop YARN）上執行Hadoop和Spark 。
如果無法做到這一點，請在與HDFS相同的區域網中的不同節點上執行Spark。
對於像HBase這樣的低延遲資料儲存，最好在不同於儲存系統的節點上執行計算作業以避免干擾。
記憶體

通常，Spark可以在每臺機器上執行8 GB到數百GB的記憶體。在所有情況下，我們建議僅為Spark分配最多75％的記憶體; 剩下的就是作業系統和緩衝區快取了。

您需要多少記憶體取決於您的應用程式。要確定應用程式對特定資料集大小的使用量，請在Spark RDD中載入資料集的一部分，並使用Spark監視UI（http://<driver-node>:4040

）的“儲存”選項卡檢視其在記憶體中的大小。請注意，記憶體使用率受儲存級別和序列化格式的影響很大 - 有關如何減少記憶體的提示，請參閱調整指南。

最後，請注意Java VM並不總是表現出超過200 GB的RAM。如果購買RAM大於此值的計算機，則可以為每個節點執行多個工作JVM。在Spark的獨立模式下，您可以使用SPARK_WORKER_INSTANCES變數in conf/spark-env.sh和每個worker的核心數設定每個節點的worker數SPARK_WORKER_CORES。

本地磁碟

雖然Spark可以在記憶體中執行大量計算，但它仍然使用本地磁碟來儲存不適合RAM的資料，以及儲存各階段之間的中間輸出。我們建議每個節點有4-8個磁碟

，沒有配置RAID（就像單獨的掛載點一樣）。在Linux中，使用noatime選項安裝磁碟以減少不必要的寫入。在Spark中，將變數配置為spark.local.dir以逗號分隔的本地磁碟列表。如果您正在執行HDFS，則可以使用與HDFS相同的磁碟。
網路

根據我們的經驗，當資料在記憶體中時，很多Spark應用程式都是網路繫結的。使用10千兆位或更高的網路是使這些應用程式更快的最佳方式。對於“分散式減少”應用程式尤其如此，例如分組，減少和SQL連線。在任何給定的應用程式中，您都可以從應用程式的監視UI（http://<driver-node>:4040）中檢視Spark在網路中的資料量。
CPU核心

Spark可以很好地擴充套件到每臺機器數十個CPU核心，因為它線上程之間執行的共享最少。您應該為每臺機器配置至少8-16個核心。根據工作負載的CPU成本，您可能還需要更多：一旦資料在記憶體中，大多數應用程式都受CPU或網路限制。

參考：

Hardware Provisioning

spark叢集部署-硬體配置官方建議

Apache Spark: The number of cores vs. the number of executors

spark部署所需硬體資源

儲存系統由於大多數Spark作業可能必須從外部儲存系統（例如Hadoop檔案系統或HBase）讀取輸入資料，因此將其儘可能靠近此係統放置非常重要。我們建議如下：如果可能的話，在與HDFS相同的節點上執行Spark。最簡單的方法是建立一個Spark 獨立模式叢集同一節點

mosquitto 在windows64安裝部署所需dll檔案，和壓力測試程式碼Q:670255367

歡迎使用Markdown編輯器寫部落格本Markdown編輯器使用StackEdit修改而來，用它寫部落格，將會帶來全新的體驗哦： Markdown和擴充套件Markdown簡潔的語法程式碼塊高亮圖片連結和圖片上傳## 標題 ## LaTex數學公式

Spring Boot入門(一)Spring Boot+IDEA+JDK1.8開發環境和第一個專案的搭建，附所需資源連結

前言博主第一次瞭解Spring Boot 這個框架，之前的時候就一直對這個框架心馳神往，如今剛開始學習這個框架，把學習歷程和過程中遇到的問題和解決方法記錄下來，與大家一起分享！關於Spring Boot

scrapyd部署爬蟲專案所需配置

scrapyd部署爬蟲專案 1，安裝scrapy包 pip install scrapyd 在終端輸入scrapyd 檢視是否成功所在埠為6800即為成功（建議不要將這個關掉，後面需要這個服務，關掉會連線不到主機）在瀏覽器上輸入127.0

Grpc+ProtoBuf所需的一些資源

1.golang.org\x\net\context，對應的可訪問連結：https://github.com/golang/net，裡面包含context，dns，http2等一系列資源 2.golang.org/x/text/secure/bidirule，對應的可訪

Go(GoLang)配置Grpc+ProtoBuf所需的一些資源

1.golang.org\x\net\context，對應的可訪問連結：https://github.com/golang/net，裡面包含context，dns，http2等一系列資源 2.golang.org/x/text/secure/bidirule，對應的可訪問連

ajax 網路錯誤所需資源沒有可用資料。由於出現錯誤 00002efe 而導致此項操作無法完成。

今天我在編寫一個js ajax程式時在ie瀏覽器出現了這種錯誤。我開啟f12開發者工具，發現程式的結果為100/continue。在網上查詢該錯誤的相關資訊，發現是這樣描述的。【http之100-continue】　　1、http 100-continue用於客

DirectX 安裝報錯: 不能信任一個安裝所需的壓縮文件，請檢查加密服務是否啟用並且cabinet文件證書是否有效

建議長時間頁面檢查 ould get 浪費 images 跳轉 DirectX 安裝報錯不能信任一個安裝所需的壓縮文件，請檢查加密服務是否啟用並且cabinet文件證書是否有效是直播軟件open broadcaster software,這個軟件安裝的時候提示“y

判斷所需時間與現在時間的大小

inpu log put getdate var tin () val con // 判斷集合時間 var date=new Date($("input[name=‘mettingTime‘]").val()); var now=new Date();

java按所需格式獲取當前時間

.html ref html 獲取 htm matrix www archive .cn 轉載地址： http://www.cnblogs.com/Matrix54/archive/2012/05/01/2478158.htmljava按所需格式獲取當前時間

發布所需

整理屬性其他圖片 ges span text ron 名稱可以發布產品了，可以邊發布產品邊完善其他信息接下來兩周時間整理好產品發給我，不要一個個給我，最好用一張excel表格將商品一個一個綜合好發再給我發布。產品需求如下（所有涉及文字都是英文）產品名稱，產品關

系統報 “client沒有所需的特權” 的解決方法

tint tracking 代碼 -m popu 運行項目 acl lai 今在對服務端代碼進行單元測試的時候。突然報出例如以下錯誤： client沒有所需的特權後經網上查找，相同的問題都是屬於對C盤讀寫的問題。回憶自己的項目也須要對C盤進行創建文件夾和讀寫

兔子--百度地圖所需的jar+so下載地址

mod class trac article data pop nload 百度地圖 net 百度地圖所需的jar+so下載地址：http://download.csdn.net/detail/u013425527/8265569 兔子--百度地圖所需

jQuery EasyUI一個基於 jQuery 的框架(創建網頁所需的一切)

fault def edi lec ... center icon jquer timeout jQuery EasyUI學習網址：http://www.runoob.com/jeasyui/jqueryeasyui-tutorial.html jQuery MiniUI

asp.net core webapi 似乎未安裝在 IIS 中承載 .NET Core 項目所需的 AspNetCoreModule。請嘗試修復 Visual Studio 以糾正該問題。

pre tin nbsp img 承載 win res windows visual 安裝 DotNetCore.1.1.0-WindowsHosting 後，提示如題錯誤。解決辦法： ASP.NET Core 應用程序運行，可以選擇 IIS Express 也可以選擇

第二章.給客戶所需之物(1)

pan tin 外部 starting tar simulator color exc 運行用例：用例是捕捉新系統或軟件變更的潛在需求技術。每個用力提供一個或多個場景（scenario），傳達系統如何與終端用戶（end user）或其他系統交互以實現特定目標。什麽意思？

獲取微信支付所需簽名等

mode auto ppi rate one url con turn sub @RequestMapping(value = "/toPay", method = RequestMethod.POST) @ResponseBody public String getSho

maven (profiles)裝載不同環境所需的配置文件

ins sco resource ffi log nbsp clean 全局變量加載引子：　　maven與java的聯系在今天的項目已經是不可分割的，但是不同的項目有各具特色的項目結構，不同的項目結構使用了不同的maven插件，想要了解一個項目的項目結構，或者自己構

利用maven-assembly-plugin加載不同環境所需的配置文件

參考 oal 階段配置信息需求 lifecycle ima jar 背景：　　如何加載不同環境的配置文件已經成了實在必行的，我們通常利用profile進行，詳情參見我上篇博客 http://www.cnblogs.com/lianshan/p/7347890.htm

使用Json.NET來序列化所需的數據

toolbar src 關鍵字 boolean 自定義 ember api log mar 我們在做開發的時候，很多時候需要和Json數據格式打交道，如Web開發裏面，很多時候，數據通過Json進行傳遞到頁面上，然後在進行處理的。而使用Json的時候，我們很多時候會涉及到幾

spark部署所需硬體資源

儲存系統

記憶體

本地磁碟

網路

CPU核心

相關推薦