前面講了常用的DataSource的用法，DataSource其實是把資料載入進來，載入進來之後就需要做Transformation操作了。

Data transformations transform one or more DataSets into a new DataSet. Programs can combine multiple transformations into sophisticated assemblies.

資料轉化可以將一個或多個DataSets轉化到一個新的DataSet。就是一個演算法的綜合使用。

Map Function

Scala

新建一個Object

object DataSetTransformationApp {

  def main(args: Array[String]): Unit = {
    val environment = ExecutionEnvironment.getExecutionEnvironment

  }

  def mapFunction(env: ExecutionEnvironment): Unit = {
    val data = env.fromCollection(List(1,2,3,4,5,6,7,8,9,10))
  }

}

這裡的資料來源是一個1到10的list集合。Map的原理是：假設data資料集中有N個元素，將每一個元素進行轉化：

data.map { x => x.toInt }

好比：y=f(x)

    // 對data中的每一個元素都去做一個+1操作
    data.map((x:Int) => x + 1 ).print()

然後對每一個元素都做一個+1操作。

簡單寫法：

如果這個裡面只有一個元素，就可以直接寫成下面形式：

data.map((x) => x + 1).print()

更簡潔的寫法：

data.map(x => x + 1).print()

更簡潔的方法：

data.map(_ + 1).print()

Java

    public static void main(String[] args) throws Exception {
        ExecutionEnvironment executionEnvironment = ExecutionEnvironment.getExecutionEnvironment();
        mapFunction(executionEnvironment);
    }

    public static void mapFunction(ExecutionEnvironment executionEnvironment) throws Exception {
        List<String> list = new ArrayList<>();
        for (int i = 1; i <= 10; i++) {
            list.add(i + "");
        }
        DataSource<String> data = executionEnvironment.fromCollection(list);
        data.map(new MapFunction<String, Integer>() {
            public Integer map(String input) {
                return Integer.parseInt(input) + 1;
            }
        }).print();
    }

因為我們定義的List是一個String的泛型，因此MapFunction的泛型是<String, Integer>，第一個引數表示輸入的型別，第二個引數表示輸出是一個Integer型別。

Filter Function

將每個元素執行+1操作，並取出大於5的元素。

Scala

  def filterFunction(env: ExecutionEnvironment): Unit = {
    val data = env.fromCollection(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
    data.map(_ + 1).filter(_ > 5).print()
  }

filter只會返回滿足條件的記錄。

Java

    public static void filterFunction(ExecutionEnvironment env) throws Exception {
        List<Integer> list = new ArrayList<>();
        for (int i = 1; i <= 10; i++) {
            list.add(i);
        }
        DataSource<Integer> data = env.fromCollection(list);
        data.map(new MapFunction<Integer, Integer>() {
            public Integer map(Integer input) {
                return input + 1;
            }
        }).filter(new FilterFunction<Integer>() {
            @Override
            public boolean filter(Integer input) throws Exception {
                return input > 5;
            }
        }).print();
    }

MapPartition Function

map function 與 MapPartition function有什麼區別？

需求：DataSource 中有100個元素,把結果儲存在資料庫中

如果使用map function ，那麼實現方法如下：

  // DataSource 中有100個元素,把結果儲存在資料庫中
  def mapPartitionFunction(env: ExecutionEnvironment): Unit = {
    val students = new ListBuffer[String]
    for (i <- 1 to 100) {
      students.append("Student" + i)
    }
    val data = env.fromCollection(students)
    data.map(x=>{
      // 每一個元素要儲存到資料庫中去，肯定需要先獲取到connection
      val connection = DBUtils.getConnection()
      println(connection + " ... ")
      // TODO .... 儲存資料到DB
      DBUtils.returnConnection(connection)
    }).print()
  }

列印結果，將會列印100個獲取DBUtils.getConnection()的請求。如果資料量增多，顯然不停的獲取連線是不現實的。

因此MapPartition就應運而生了，轉換一個分割槽裡面的資料，也就是說一個分割槽中的資料呼叫一次。

因此要首先設定分割槽：

val data = env.fromCollection(students).setParallelism(4)

設定4個分割槽，也就是並行度，然後使用mapPartition來處理：

data.mapPartition(x => {
      val connection = DBUtils.getConnection()
      println(connection + " ... ")
      // TODO .... 儲存資料到DB
      DBUtils.returnConnection(connection)
      x
    }).print()

那麼就會的到4次連線請求，每一個分割槽獲取一個connection。

Java

public static void mapPartitionFunction(ExecutionEnvironment env) throws Exception {
        List<String> list = new ArrayList<>();
        for (int i = 1; i <= 100; i++) {
            list.add("student:" + i);
        }
        DataSource<String> data = env.fromCollection(list);
        /*data.map(new MapFunction<String, String>() {
            @Override
            public String map(String input) throws Exception {
                String connection = DBUtils.getConnection();
                System.out.println("connection = [" + connection + "]");
                DBUtils.returnConnection(connection);
                return input;
            }
        }).print();*/
        data.mapPartition(new MapPartitionFunction<String, Object>() {
            @Override
            public void mapPartition(Iterable<String> values, Collector<Object> out) throws Exception {
                String connection = DBUtils.getConnection();
                System.out.println("connection = [" + connection + "]");
                DBUtils.returnConnection(connection);
            }
        }).print();
    }

first groupBy sortGroup

first表示獲取前幾個，groupBy表示分組，sortGroup表示分組內排序

def firstFunction(env:ExecutionEnvironment): Unit = {
    val info = ListBuffer[(Int, String)]()
    info.append((1, "hadoop"))
    info.append((1, "spark"))
    info.append((1, "flink"))
    info.append((2, "java"))
    info.append((2, "springboot"))
    info.append((3, "linux"))
    info.append((4, "vue"))
    val data = env.fromCollection(info)
    data.first(3).print()
    data.groupBy(0).first(2).print()
    data.groupBy(0).sortGroup(1, Order.ASCENDING).first(2).print()
  } 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Apache Flink 零基礎入門（十一）Flink transformation
      
                                        
                                                前面講了常用的DataSource的用法，DataSource其實是把資料載入進來，載入進來之後就需要做Transformatio 

  
 

    

    
    Apache Flink 零基礎入門（十八）Flink windows和Time操作
      
                                        
                                                
Time型別 
在Flink中常用的Time型別： 
 
 處理時間 
 攝取時間 
 事件時間 
 
 

處理時間 
是上圖 

  
 

    

    
    Java基礎入門（十一）之基本數據包裝類以及簡單轉換
      數據包   intvalue   nbsp   1.5   lse   false   永遠   ring   jdk   一、   基本數據類型包裝類

引用數據類型一般為基本數據類型首字母大寫，除了int 、char,其中int的引用數據類型類Integer,char的引用數據類型為Character
關 

  
 

    

    
    Apache Flink 零基礎入門（一）：基礎概念解析
      
                                        
                                                
Apache Flink 的定義、架構及原理 
    Apache Flink 是一個 

  
 

    

    
    Apache Flink 零基礎入門（三）編寫最簡單的helloWorld
      
                                        
                                                
實驗環境 
JDK 1.8 
IDE Intellij idea 
Flink 1.8.1 

實驗內容 
建立一個Flink簡 

  
 

    

    
    Apache Flink 零基礎入門（八）Flink支援哪些資料型別
      
                                        
                                                Flink有7種資料型別分別是： 
 
 Java Tuples and Scala Case Classes 

  
 

    

    
    Storm入門（十一）Twitter Storm源代碼分析之CoordinatedBolt
      業務   什麽   協議   ack   第一個   ng-   rec   功能   這一   作者: xumingming | 可以轉載, 但必須以超鏈接形式標明文章原始出處和作者信息及版權聲明網址: http://xumingming.sinaapp.com/811/twitter-storm-code 

  
 

    

    
    python基礎教程（十一）
      list   repeat   stop   row   lis   flatten   ror   教程   [1]    
叠代器
 
本節進行叠代器的討論。只討論一個特殊方法---- __iter__  ，這個方法是叠代器規則的基礎。
 
叠代器規則
叠代的意思是重復做一些事很多次---就像在循環中做的 

  
 

    

    
    WPF自學入門（十一）WPF MVVM模式Command命令
      tps   xaml   使用   company   change   用戶   通過命令   AC   聯系人           在WPF自學入門（十）WPF MVVM簡單介紹中的示例似乎運行起來沒有什麽問題，也可以進行更新。但是這並不是我們使用MVVM的正確方式。正如上一篇文章中在開始說的，MVVM的 

  
 

    

    
    PHP基礎知識（十一）
      PHP字串處理 
一、單雙引號字串： 
　　1、單引號字串：前處理器會直接對單個字元進行處理。 
　　2、雙引號字串：前處理器會對字串進行預處理。將變數、轉義字元等處理。 
　　雙引號會花費前處理器進行處理的時間，所以應該儘量多使用單引號。 
　　雙引號來處理字串時，應該將變數用{$ }格式來寫。 
二、字串 

  
 

    

    
    Python3基礎之（十 一）函式引數
       
 
  
  
 我們在呼叫函式的時候，想要指定一些變數的值在函式中使用，那麼這些變數就是函式的引數，函式呼叫的時候， 傳入即可。 
 一、基本使用 
 def function(parameters):
    expressions
 
 parameters 的位置就是函式的引數，在呼叫的時候傳入即 

  
 

    

    
    java基礎筆記（十一）多型
       
  
  
 概念： 
 同一個物件，在不同時刻體現出不同的狀態 
 舉例： 
 貓是貓。貓是動物 
 Animal cat1 = new Cat();
 
  
 多型前提： 
  
  要有繼承關係 
  要有方法重寫（多型的體現） 
  要有父類引用指向子類 Animal cat1 = new Ca 

  
 

    

    
    java多線程快速入門（十一）
      lee   read   .get   java多線   als   pub   syn   this   ble   在方法上面加synchonizd用的是this鎖

package com.cppdy;

class MyThread7 implements Runnable {

    privat 

  
 

    

    
    java多執行緒快速入門（十一）
      在方法上面加synchonizd用的是this鎖 
 
 package com.cppdy;

class MyThread7 implements Runnable {

    private Integer ticketCount = 100;
    public boolean falg = tr 

  
 

    

    
    智慧合約基礎語言（十一）——建立和呼叫合約
       
 
   
 智慧合約基礎語言（十一）——建立和呼叫合約 
  
  一、目錄 
  
 ☞建立合約 
 ☞呼叫合約 
  
  二、建立合約 
  
 我們寫好一個合約後，一個合約如何部署到以太坊網路，並實現合約函式的呼叫呢？合約部署到以太坊網路上，也是一個交易的過程。首先向全網傳送一個合約建 

  
 

    

    
    Python入門（十一）File檔案方法
       
  
  
 Python File(檔案) 方法 
 file 物件使用 open 函式來建立，下表列出了 file 物件常用的函式： 
  
   
    
    序號 
    方法 
    描述 
    
   
  
    
    1 
    file.close() 
    關 

  
 

    

    
    深度學習基礎系列（十一）| Keras中影象增強技術詳解
      　　在深度學習中，資料短缺是我們經常面臨的一個問題，雖然現在有不少公開資料集，但跟大公司掌握的海量資料集相比，數量上仍然偏少，而某些特定領域的資料採集更是非常困難。根據之前的學習可知，資料量少帶來的最直接影響就是過擬合。那有沒有辦法在現有少量資料基礎上，降低或解決過擬合問題呢？ 
     

  
 

    

    
    遊戲開發入門（十一）遊戲引擎架構
      
								
								            
							
							
							

該堂課是對遊戲引擎內容的一個概括總結，同時也是對遊戲開發技術的一個相當全面的總結。 
正如我在開篇所提到的，遊戲引擎架構的學習有助於我們建立一個對遊戲全域性性的認識。



筆記與總結（請先學習視訊 

  
 

    

    
    Vue入門（十一）---- mixins
      
								
								            
							
							
							混入 (mixins)

是一種分發 Vue 元件中可複用功能的非常靈活的方式。混入物件可以包含任意元件選項。當元件使用混入物件時，所有混入物件的選項將被混入該元件本身的選項。

main.js



 

  
 

    

    
    Swift入門（十一）——型別轉換與is、as操作
      
							
							
							三種操作：is、as？和as！

Swift是強型別語言，但也允許開發者通過is、as？和as！這三種操作來對型別進行判斷和強制轉換。其中is用作型別判斷，而as？和as！則分別是型別轉換的可選形式和強制形式。在這裡強調一下，swift中比較常用的向下轉換（do