Flink分散式快取Distributed Cache應用案例實戰-Flink牛刀小試

阿新 • • 發佈：2018-11-25

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡。

1 分散式快取

Flink提供了一個分散式快取，類似於hadoop，可以使使用者在並行函式中很方便的讀取本地檔案，並把它放在taskmanager節點中，防止task重複拉取。
此快取的工作機制如下：程式註冊一個檔案或者目錄(本地或者遠端檔案系統，例如hdfs或者s3)，通過ExecutionEnvironment註冊快取檔案併為它起一個名稱。當程式執行，Flink自動將檔案或者目錄複製到所有taskmanager節點的本地檔案系統，僅會執行一次。使用者可以通過這個指定的名稱查詢檔案或者目錄，然後從taskmanager節點的本地檔案系統訪問它

2 使用技巧

1：註冊一個檔案

  env.registerCachedFile("hdfs:///path/to/your/file", "hdfsFile")  
複製程式碼

2：訪問資料

  File myFile = getRuntimeContext().getDistributedCache().getFile("hdfsFile");
複製程式碼

3 應用案例實戰

3.1 在D盤建立一個檔案discache.txt，並進行registerCachedFile

3.2 每一個TaskManager都會存在一份，防止MapTask重複拉取檔案。

public class BatchDemoDisCache {

    public static void main(String[] args) throws Exception{

        //獲取執行環境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        //1：註冊一個檔案,可以使用hdfs或者s3上的檔案
        env.registerCachedFile("d:\\discache.txt","a.txt");

        DataSource<String> data = env.fromElements("a", "b", "c", "d");

        DataSet<String> result = data.map(new RichMapFunction<String, String>() {
            private ArrayList<String> dataList = new ArrayList<String>();

            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                //2：使用檔案
                File myFile = getRuntimeContext().getDistributedCache().getFile("a.txt");
                List<String> lines = FileUtils.readLines(myFile);
                for (String line : lines) {
                    this.dataList.add(line);
                    System.out.println("discache:" + line);
                }
            }
            
            @Override
            public String map(String value) throws Exception {
                //在這裡就可以使用dataList
                return value;
            }
        });
        result.print();
    }
}
複製程式碼

3.3 結果展示

discache:flink
discache:spark
discache:hadoop
discache:kylin
a
b
c
d
複製程式碼

4 總結收尾

短文奉上，主題明確。辛苦成文，各自珍惜，謝謝！

秦凱新於深圳 201811251732

Flink分散式快取Distributed Cache應用案例實戰-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡。 1 分散式快取

Flink Broadcast 廣播變數應用案例實戰-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡。 1.1 Broa

Flink與SparkStreaming之Counters& Accumulators累加器雙向應用案例實戰-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡。 1 累加器應用場

Flink DataStreamAPI與DataSetAPI應用案例實戰-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。期待加入IOT時代最具戰鬥力的團隊。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。 1 D

Flink Window型別及使用原理案例實戰-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡

螞蟻金服技術專家分享25個分散式快取實踐與線上案例

　　前言：　　本文主要介紹使用分散式快取的優秀實踐和線上案例。這些案例是筆者在多家網際網路公司裡積累並形成的優秀實踐，能夠幫助大家在生產實踐中避免很多不必要的生產事故。　　一、快取設計的核心要素　　我們在應用中決定使用快取時，通常需要進行詳細的設計，因為設計快

Hive SQL 綜合應用案例實戰及多項效能指標深入講解-DW商業環境實戰

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。QQ郵箱地址：[email protected]，如有任何技術交流，可隨時聯絡。 1：order by， sort by，

Flink分散式快取

官方參考文件地址：https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/index.html#distribute

Flink Distributed Cache 分散式快取

Flink提供了一個分散式快取，類似於hadoop，可以使使用者在並行函式中很方便的讀取本地檔案。此功能可用於共享檔案，包含靜態的外部資料，例如字典或者machine-learned迴歸模型。此快取的工作機制如下：程式註冊一個檔案或者目錄(本地或者遠端檔案系統，例如hdf

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用015-Flink中廣播變數和分散式快取001

1.flink中的廣播變數 flink支援將變數廣播到worker上，以供程式運算使用。執行程式 package code.book.batch.sinksource.scala i

Microsoft Distributed Cache Velocity 分散式快取

微軟分散式快取，工程程式碼為“Velocity”。這是一個分散式記憶體物件快取系統。最新版本為CTP3。下載跟memcached一樣，“Velocity”維護一張大的雜湊表，這張表可以跨越多個伺服器，你可以通過新增或者減少伺服器來平衡系統壓力。安裝“

Distributed Cache(分散式快取)-SqlServer

分散式快取是由多個應用伺服器共享的快取，通常作為外部服務儲存在單個應用伺服器上，常用的有SqlServer，Redis，NCache。分散式快取可以提高ASP.NET Core應用程式的效能和可伸縮性，尤其是應用程式由雲服務或伺服器場託管時。分散式快取的特點：跨多個伺服器請求，保證一致性。

《深入分散式快取》第4章Ehcache 與guava cache

一序本文屬於《深入分散式快取》讀書筆記，第一章：快取為王主要介紹快取概念，以及引入快取的背景：提升使用者體驗。還介紹了快取的分類，第二章主要介紹分散式理論。個人覺得第二章可以去掉，畢竟是泛泛的介紹。還是專門去看有主題的書比較好，比如《<從PAXOS

JAVA架構師大型分散式高併發電商專案實戰，效能優化，叢集，億級高併發，web安全，快取架構實戰

現任58到家技術委員會主席，高階技術總監，負責企業，支付，營銷、客戶關係等多個後端業務部門。本質，技術人一枚。網際網路架構技術專家，“架構師之路”公眾號作者。曾任百度高階工程師，58同城高階架構師，58同城技術委員會主席，58同城C2C技術部負責人。內容介紹 1.大資

大資料（十三）：MapJoin（DistributedCache分散式快取）、資料清理例項與計數器應用

一、在map端表合併（DistributedCache分散式快取） 1.適用場景適合用於關聯表中有小表的情形。可以將小表分發到所有的

JMeter全程實戰、效能測試實戰、分散式效能測試、真實案例分析

測試需求描述 1、本次測試的介面為http服務端介面 2、介面的主要分成兩類，一類提供給查詢功能介面，一類提供儲存資料功能介面，這裡我們舉例2個儲存資料的介面，因為這兩個介面有關聯性，比較有代表性；儲存信用卡賬戶資訊介面：傳入引數： args={ "clientNo":"43434

吳裕雄資料探勘與分析案例實戰（12）——SVM模型的應用

import pandas as pd # 匯入第三方模組from sklearn import svmfrom sklearn import model_selectionfrom sklearn import metrics # 讀取外部資料letters = pd.read_csv(r'F:\\py

TensorFlow基礎及MNIST資料集邏輯迴歸應用實踐-大資料ML樣本集案例實戰

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。 1 TensorFlow基本使用操作

分散式快取技術redis學習系列（四）——redis高階應用（叢集搭建、叢集分割槽原理、叢集操作）

Redis叢集簡介 Redis 叢集是3.0之後才引入的，在3.0之前，使用哨兵（sentinel）機制（本文將不做介紹，大家可另行查閱）來監控各個節點之間的狀態。Redis 叢集可謂是讓很多人久等了。 Redis 叢集是一組能進行資料共享的Redis 例項（

[原創]分散式系統之快取的微觀應用經驗談（三）【資料分片和叢集篇】

分散式系統之快取的微觀應用經驗談（三）【資料分片和叢集篇】前言　　近幾個月一直在忙些瑣事，幾乎年後都沒怎麼閒過。忙忙碌碌中就進入了2018年的秋天了，不得不感嘆時間總是如白駒過隙，也不知道收穫了什麼和失去了什麼。最近稍微休息，買了兩本與技術無關的書，其一是 Yann Martel 寫的《The

Flink分散式快取Distributed Cache應用案例實戰-Flink牛刀小試

1 分散式快取

2 使用技巧

3 應用案例實戰

3.1 在D盤建立一個檔案discache.txt，並進行registerCachedFile

3.2 每一個TaskManager都會存在一份，防止MapTask重複拉取檔案。

3.3 結果展示

4 總結收尾

相關推薦