幕客網學習摘要記錄1
阿新 • • 發佈:2018-10-31
1. flink瞭解
flink在2014年成為apache頂級專案,可以處理流式資料和批式資料。主要用於流式處理,和spark streaming和storm是同一類別框架。
flink處理資料是事件級別,延遲毫秒級別。
flink是主從架構,一般生產環境,在yarn上執行。
flink預設ui埠8081。
flink也是分層式的框架,最底層是部署層,然後是core層,對外api層,library層。flink和spark類似,也有ml,圖處理,類sql模組等等。
程式設計的思想和spark基本一致。
2.kafka
由linkedin開源,是apache頂級專案。
是流處理平臺,可以作為資料管道,資料處理,資料儲存。
是一個訊息佇列,但是不僅僅是一個訊息佇列。
消費者數目少於等於partition數目
訂閱者的數量要小於等於partition的數量
所有的讀和寫都從lead進,fllower只是作為備份。(partition)
slf4j註解,getter,setter註解
kafka內部有一個offsets topic來儲存被消費的topic的offset,來保證原子性
kafka高階特性-零拷貝----作業系統操作核心空間,應用程式操作使用者空間,資料從本地磁碟傳輸到網路,要經歷如下步驟:
(1)資料從本地到核心空間頁快取(Read buffer)
(2)核心空間快取到使用者空間快取
(3)應用程式處理完後寫回socket快取(Socket buffer)
(4)socket快取複製到網絡卡快取
0拷貝,是指核心空間快取和使用者空間快取的互動為0.
(1)資料從本地到核心空間頁快取
(2)核心空間頁快取到網絡卡快取(NIC buffer)