對分散式儲存和平行計算的一點思考
分散式儲存:
首先是檔案在HDFS上面以128M塊大小儲存(3份),這三塊是在不同節點的(機架感知),我覺的好處是容錯還有當計算是這個節點資源不夠可以去塊所在的另一節點執行,不用拉取資料。
可以通過fs.getfileblocklocation()獲取塊位置
平行計算:
1、MR使用預設的輸入格式,一個塊就是一個切片,切片數就是並行度,就是MapTask個數,所有資料塊同時計算,reduceTask數可以設定,reduce生成的檔案在reduce任務所在節點
2、spark讀不同的資料來源預設並行度是不同的,讀HDFS檔案預設也是一塊為一個分割槽,要理解RDD的彈性分散式資料集,對於一個job可以看下圖
每個stage中的分割槽數就是並行度,就是一個task,我們再提交spark任務的時候要指定excutor和每個excutor的cores個數,excutor個數乘以cores就是最大並行度,一個core執行一個task
一般要對spark任務重分割槽,官方來說分割槽數是最大並行度的2-3倍,充分利用資源
還有個job之間預設是序列的,如果讓job之間並行(用Executor實現多執行緒方式處理Job)可以看http://blog.51cto.com/10120275/1961130
3、Flink的後續補充
相關推薦
對分散式儲存和平行計算的一點思考
分散式儲存: 首先是檔案在HDFS上面以128M塊大小儲存(3份),這三塊是在不同節點的(機架感知),我覺的好處是容錯還有當計算是這個節點資源不夠可以去塊所在的另一節點執行,不用拉取資料。 可以通過fs.getfileblocklocation()獲取塊位置 平行計算: 1、MR使用預設的輸
對glPushAttrib和glPopAttrib的一點思考
先把今天遇到的問題描述下吧,本來有兩個影像圖層,我對第一個圖層設定了裁剪範圍,然後再繪製第二個圖層,此時第二個圖層不顯示,此問題僅出現在NVIDIA顯示卡上,AMD顯示卡正常,讓我鬱悶了好久。 後來通過glPushAttrib和glPopAttrib解決了此問題,在渲染前
分散式計算和平行計算差異
Mapreduce是分散式計算的典型技術,MPI則是平行計算的典型技術。總結下來主要兩點區別: 1、分散式計算(如MapReduce)的計算節點任務往往是獨立的,鬆散的。不涉及大規模的資料互動,因此節點之間執行幾乎互不影響。體現到技術架構上就使得可以做到計算和儲存在同一個節點上,不存在計算節
分散式計算和平行計算的異同
轉載:http://www.equn.com/forum/thread-4876-1-1.html 解決物件上:都是大任務化為小任務,這是他們共同之處。但是分散式的任務包互相之間有獨立性,上一個任務包的結果未返回或者是結果處理錯誤,對下一個任務包的處理幾乎沒有什麼影響。因此
學習Java之對關鍵字break和continue的一點理解
我們都知道關鍵字 —— break 是 預設跳出當前距離此 break 最近的一個 for / while 迴圈語句塊 或 switch 開關語句塊; 例-1:跳出迴圈 for(;;) { while(true)
Java--如何使用多執行緒對一個HashSet進行平行計算
這段時間工作比較忙。今天抽空整理了一個多執行緒使用場景。 當處理一個數據量比較大的集合時(每個元素的計算都耗時比較長)。由於只使用一個執行緒進行計算比較慢。所以想到多跑幾個執行緒進行處理。 1.每個執行緒可以自行計算要處理集合的開始和結束索引,確保每一個元素都被計算的到。
[轉] Julia是人工智慧、機器學習、深度學習和平行計算這些應用的較佳選擇
程式語言可謂種類繁多;數學家、研究人員和資料科學家面臨的一大問題常常是,找到實際上適合手頭處理的任何任務的某一種語言。 為了避免困難,總部位於孟加拉國和美國的初創公司Julia Computing的幾位聯合創始人開發出了一種通用程式語言:Julia,不是程式設計師的
科普:平行計算、分散式計算、叢集計算和雲端計算
1. 平行計算(Parallel Computing) 平行計算或稱平行計算是相對於序列計算來說的。平行計算(Parallel Computing)是指同時使用多種計算資源解決計算問題的過程。為執行平行計算,計算資源應包括一臺配有多處理機(並行處理)的計算機、一個與網路相連的計算機專有編
平行計算、分散式計算、叢集計算和雲端計算
科普:平行計算、分散式計算、叢集計算和雲端計算 1. 平行計算(Parallel Computing) 平行計算或稱平行計算是相對於序列計算來說的。平行計算(Parallel Computing)是指同時使用多種計算資源解決計算問題的過程。為執行平行計算,計算資源應
對TCP埠和連線數的一點思考
先來看看一些約定俗成的內容。 一個網絡卡對應一個IP地址 一個IP地址對應65535個埠 一個socket(addr, port)可以接受多個socket連線(accept) 一個埠只能被一個socket監聽(listen)
我的平行計算之路(二)MPI點對點通訊MPI_Send和MPI_Recv
學習了MPI的點對點技術後,來部落格記錄一下。先上完整地程式碼: #include<bits/stdc++.h> #include<mpi.h> using namespace std; int comm_sz=0; int my_ra
雲端計算和分散式計算,網格計算,平行計算對比分析
現在把早上看到的雲端計算和分散式計算,網格計算,平行計算的概念對比分析一下。 其實是要了解雲端計算,但是這幾個名字叫得容易把問題搞混。就先從關係最不大的說吧。 平行計算(Parallel Computing) 並 行計算或稱平行計算是相對於序列計算來說的;所謂平行計算可分為時
談談對分散式事務的一點理解和解決方案
## 前提 最近,工作中要為現在的老系統做拆分和升級,剛好遇到了分散式事務、冪等控制、非同步訊息亂序和補償方案等問題,剛好基於實踐結合個人的看法記錄一下一些方案和思路。 ## 分散式事務 首先,做系統拆分的時候幾乎都會遇到分散式事務的問題,一個模擬的案例如下: ![j-t-s-i-a-1.png]
對抽象類和接口的一點認識
數據共享 父類 標識 常量 詳細 class 抽象層 span 必須 假設一個非抽象子類繼承一個抽象父類,它必須實現父類中的抽象方法,假設子類也是抽象類,那麽則不必實現父類中的抽象方法。 假設一個類實現了一個接口。那麽必須實現接口中的全部方法。可是子類是抽象類則不用。
需求管理和開發的一點小思考
正常 其中 組合 2個 思考 功能 復用性 做到 不同 最近在一次小的需求討論會上,主要是組合交易的需求改進,某一個用戶提出能不能從自選股中導出列表然後去下單,這裏面隱含有導出導入兩個操作,在這兩個操作的操作流程上,不同人員給出了不同的看法。 1. 產品設計人員設計出兩
對C#調用C++的dll的一點思考
今天 def byte lag har 調用 一段時間 總結 unsigned 最近在對接C++程序的時候碰到了一些問題,然後花了一段時間才解決,今天就這些小問題來做一個總結,很多時候由於對另外一種開發語言的不熟悉,會在使用的過程中遇到很多的問題,這些問題看似簡單但是背
對消費主義的陷阱以及脫離人的動物性本能的一點思考
黑洞 給人 手機app 意義 快手 接受 利用 還在 流量 今天在圖書館時,偶然想到了一點問題,於是就想趁著這個余熱未盡時,把自己的一點思考及時用文字表達出來,第一次寫,語言難免淺薄,還望見諒。 首先,我想講一下消費主義的問題。其實,在很多創業的MOOC中,我常常聽
設計表的時候,對變長字段長度選擇的一點思考
eight CA serve 可能 執行 滿足 ide ont val 不管是在MSSQL還是MySQL或者Oracle,變長字段的長度衡量都是要經常面對的。對於一個變長的字段,在滿足業務的情況下(其實所謂的滿足業務是一個比較模糊的東西),到底是選擇varchar(50)還
如何實現一個TCC分散式事務框架的一點思考
一個TCC事務框架需要解決的當然是分散式事務的管理。關於TCC事務機制的介紹,可以參考TCC事務機制簡介。 TCC事務模型雖然說起來簡單,然而要基於TCC實現一個通用的分散式事務框架,卻比它看上去要複雜的多,不只是簡單的呼叫一下Confirm/Cancel業務就可以了的。 本文將以Spring容器為例,試圖
關於順序點,副作用和賦值運算子的一點思考
《c primer plus》p104中講到: 副作用是對資料物件或檔案的修改 c的主要目的是對錶達式求值 c標準規定,在順序點,所有的副作用都在進入下一步前被計算(順序點是修改值的最晚時刻,有可能比它早) 3類順序點: 1.每個完整表示式結束後,即分號後面 2