Flink邊學邊記

阿新 • • 發佈：2018-12-13

都是自己從網上搜集的一些自己感興趣的東西

----------------------------------------------------------------------------------------------------------------------------------------

Flink是什麼？

Apache Flink是一個面向分散式資料留處理和批量資料處理的開源計算平臺，提供支援流處理和批處理兩種型別應用的功能
Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded

data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale.
Apache Flink是一個框架和分散式處理引擎，用於對無界和有界資料流進行有狀態計算。Flink設計為在所有常見的叢集環境中執行，以記憶體速度和任何規模執行計算。
什麼是有狀態的計算?

計算任務的結果不僅僅依賴於輸入，還依賴於它的當前狀態，其實大多數的計算都是有狀態的計算。比如wordcount,給一些word,其計算它的count,這是一個很常見的業務場景。count做為輸出，在計算的過程中要不斷的把輸入累加到count上去，那麼count就是一個 state。

Flink是怎麼來的？

在2008 年，Flink 是柏林理工大學一個研究性專案。在 2014 被 Apache 孵化器所接受，然後迅速地成為了 ASF（Apache Software Foundation）的頂級專案之一。

個人覺得Flink具備什麼特點呢？

Flink兼備了spark的基於記憶體的快速計算，又實現了毫秒級的實時計算。並實現了很多更加方便快捷的東西，將對此進行學習。
開始學習

Flink生態圈是什麼？

圖1 Flink的生態圈

從部署模式上講，Flink支援local模式、叢集模式（standalone叢集或者Yarn叢集）、Cloud端部署。
Flink的核心是DistributedStreaming Dataflow引擎，它用來執行dataflow程式。Flink的核心執行引擎可以看作是Streaming Dataflow引擎，DataSetAPI和DataStreamAPI都可以通過該引擎建立執行時程式。
Flink中有兩個核心API：用於處理有界資料集DataSet API(通常稱為批處理)和用於處理無界資料流的DataStream API(通常稱為實時流處理)。
在核心API的基礎上，Flink還綁定了用於特定於領域的庫和API，目前是用於機器學習的FlinkML, 用於圖處理的Gelly和用於sql的操作的Table API。從部署模式上講，Flink支援local模式、叢集模式（standalone叢集或者Yarn叢集）、Cloud端部署。

Flink的架構是什麼？

圖2 Flink的架構

matser-slaver

JobManagers(master)：用於協調分散式程式執行。它們用來排程task，協調檢查點，協調失敗時恢復等
TaskManagers(worker)：用於執行一個dataflow的task(或者特殊的subtask)、資料緩衝和data stream的交換。

Flink程式的核心概念是什麼？

flink程式三個基本構建塊

source：資料來源
transformations：基於資料流的一組operate操作
sink：資料處理結果的目的地

並行資料流

在flink中，transformation是由一組operator組成，每一個operator被分割成operator subtask，同一個operator的多個 subtasks在不同的執行緒、不同的物理機或不同的容器中彼此互不依賴得並行執行。
Stream在operator有兩種形式：One-to-one：類似於spark中的窄依賴；Redistributing：類似於spark中的寬依賴

Flink邊學邊記

都是自己從網上搜集的一些自己感興趣的東西 -------------------------------------------------------------------------------------------------------------------------------

邊學邊敲邊記之爬蟲系列(九)：Item+Pipeline資料儲存

一、寫在前面好久沒更新了，快半個月了，也少有讀者催著更新，於是乎自己就拖啊，為公眾號出路想方設法，著實是有點迷失自我，廢話不多說了。今天是爬蟲系列第9篇，上一篇Scrapy系統爬取伯樂線上中我們已經利用Scrapy獲取到了伯樂線上網站所有文章的基本資料，但我們沒有做儲存操作

邊學邊敲邊記之爬蟲系列(四)：Scrapy框架搭建

一、前言今天給大家分享的是，Python裡的爬蟲框架Scrapy學習，包含python虛擬環境的搭建、虛擬環境的使用、Scrapy安裝方法詳解、Scrapy基本使用、Scrapy專案目錄及內容基本介紹，let’s go！二、Python爬蟲框架Scrapy簡介推薦

邊學邊敲邊記之爬蟲系列(三)：url去重策略及實現

一、前言今天給大家分享的是，Python爬蟲裡url去重策略及實現。二、url去重及策略簡介 1.url去重從字面上理解，url去重即去除重複的url,在爬蟲中就是去除已經爬取過的url,避免重複爬取，既影響爬蟲效率，又產生冗

程式人生——邊學邊記

一.tcp協議中的序列號與確認號傳輸資料的簡要過程如下：（由於服務端傳送的包中確認收到了客戶端傳送的SYN，故客戶端的序列號由0變為1） 1) 傳送資料：伺服器向客戶端傳送一個帶有資料的資料包，該資料包中的序列號和確認號與建立連線第三步的資料包中的序列號和確認號相

閉包、箭頭函式、generator JavaScript邊學邊記（五）

閉包：函式 + 建立函式的詞法環繞的組合函式除了可以接受函式作為引數，還可以將函式作為結果值返回。返回的是函式，而不是結果。可以類比於Java中類，只有一個公共方法（閉包中返回的函式）的類類似於閉包。 function make_sum(arr) {

邊學邊敲邊記爬蟲系列(六)：CSS選擇器實戰訓練

一、前言上一篇文章Xpath實戰訓練中給大家講解並帶著大家實戰訓練了Xpath，爬取了伯樂線上文章的基本資訊，並且介紹scrapy裡的shell除錯模式使用，還是很實用的哈。本篇將給大家講解CSS選擇器，以及一起實戰練習，牢記基礎語法知識。

scala-邊學邊記(快學scala)

隨機數 import java.util.Random val rand = new Random() val x = rand.nextInt() scala 數學包 import scala.math._ sqrt(2) pow(2,4)

linux邊學邊記---Shell指令碼的追蹤與debug

[[email protected] ~]#sh [-nvx] scripts.sh 引數： -n：不執行指令碼，僅僅查詢語法錯誤 -v：執行指令碼前，先將指令碼scripts的內容輸出到螢幕上 -x：將使用到的指令碼內容顯示到螢幕上。

[邊學邊記Unity3D] 為場景新增天空盒

1、匯入系統自帶的天空盒資源包 2、選擇選單欄“Edit”--->"Render Settings"後，會在Inspector檢視出現Render Settings配置頁面，點選Skybox Metarial選擇天空盒，選好後，天空就出來了

pytorch入門——邊學邊練01基礎知識

訪問本站觀看效果更佳寫在前面首先說一下寫作目的，很多時候，看了官網的教程，感覺看懂了，但在實際操作的時候又無從下手，所以我打算整理幾篇博文幫助大家迅速入門，如果大家有什麼好的意見建議，歡迎在文末留言。一、pytorch簡介現在流行的機器學習框架很多，比如tensorf

pytorch入門——邊學邊練05卷積神經網路

訪問本站觀看效果更佳寫在前面前面講了一堆堆基礎的東西，現在我們再來看看複雜一點的知識吧。後續會再講講RNN、Resnet等等。慢慢來吧～後面會慢慢複雜起來。後面的文章結構大體上分為兩大塊：介紹網路結構、介紹如何用pytorch實現。限於篇幅，可能會有一些知識點分散在前面的文章裡，

pytorch入門——邊學邊練04一個簡單網路

訪問本站觀看效果更佳寫在前面經過前面三節基礎課程，我們可以來一些更加複雜的內容了，今天我們一起來看一個簡單的神經網路是如何構成的，並仔細看看神經網路與之前的邏輯迴歸等課程有什麼區別。完整程式碼參見feedforward_neural_network 概念前面和大家討論了

pytorch入門——邊學邊練03邏輯迴歸

訪問本站觀看效果更佳寫在前面我們來探討一下邏輯迴歸的問題吧！順便把前面的知識點再整合一次！完整程式碼參見logistic_regression 什麼是邏輯迴歸我們先想想邏輯迴歸問題是什麼樣的一個問題。簡單的說，Logistic Regression是一個解決0/1分類問

pytorch入門——邊學邊練02線性迴歸

訪問本站觀看效果更佳寫在前面如果您先前看過吳恩達的機器學習教程，想必您對線性迴歸並不陌生。這個問題要如何用pytorch實現呢？接下來我們進行實戰操作。完整程式碼請參見linear_regression。我們會用到什麼包呢？本節，我打算要用到Linear那麼肯定要引入

pytorch入門——邊學邊練06 Residual_Network

訪問本站觀看效果更佳寫在前面今天我們探討一下大名鼎鼎的ResNet。ResNet在2015年被提出，在ImageNet比賽classification任務上獲得第一名，因為它“簡單與實用”並存，之後很多方法都建立在ResNet50或者ResNet101的基礎上完成的，檢測，分割，

邊學邊練之部落格園----設計表

1 from django.db import models 2 3 # Create your models here. 4 from django.db import models 5 from django.contrib.auth.models import Abstract

Java 邊學邊做（一）過一下基礎

Java是面向物件的語言那麼首先就要了解一下什麼是面向過程和麵向物件。面向過程：關鍵在於“怎麼做”。例如你想成為大俠，首先你需要斷臂或者跌落懸崖，然後遇見雕兄或者白猿，然後再“重劍無鋒”或者“九陽真經”等等。這裡注重的是步驟，是一個邏輯上的過程，典型就是C語言中的函式呼叫，堆砌成一個程式。面向物件：

Windows10下安裝RabbitMQ邊學邊用

由於RabbitMQ依賴於Erlang，所以在安裝RabbitMQ之前，首先需要安裝Erlang。安裝Erlang，安裝RabbitMQ 雙擊安裝程式，預設安裝即可。 RabbitMQ安裝好後接下來安裝R

Django邊學邊做（三）

一、使用騰訊雲 1、購買騰訊雲主機：https://console.qcloud.com/cvm 2、在騰訊註冊域名：https://console.qcloud.com/domain/mydomain 這裡是使用的體驗版，Cent OS 7.2 64位二、登入雲主機

Flink邊學邊記

都是自己從網上搜集的一些自己感興趣的東西

Flink是什麼？

Flink是怎麼來的？

相關的兩個框架

個人覺得Flink具備什麼特點呢？

開始學習

Flink生態圈是什麼？

Flink的架構是什麼？

matser-slaver

Flink程式的核心概念是什麼？

相關推薦