Spark如何實現MapReduce中的setup和cleanup方法

阿新 • • 發佈：2019-01-17

在MapReduce中，Mapper和Reducer可以宣告一個setup方法，在處理一個split輸入之前執行，來進行分配資料庫連線等昂貴資源，同時可以用cleanup函式可以釋放資源。

public class  SetupCleanupMapper extends

    Mapper<LongWritable, Text, Text,  IntWritable> {

  private Connection dbConnection;

 

  @Override

  protected void setup(Context context) {

    dbConnection = ...;

  }

 

  ...

  @Override

  protected void cleanup(Context context) {

    dbConnection.close();

  }

}

Spark中的map和flatMap等方法每次只能在一個input（一行）上操作，而且沒有提供在轉換大批值前後執行程式碼的方法。

但是可以用mapPartitions或mapPartitionsToPair方法來實現類似setup的目的。

mapPartitions方法和map方法類似，只不過對映函式的引數由RDD中的每一個元素變成了RDD中每一個分割槽的迭代器。如果在對映的過程中需要頻繁建立額外的物件，使用mapPartitions要比map高效的過。

比如，將RDD中的所有資料通過JDBC連線寫入資料庫，如果使用map函式，可能要為每一個元素都建立一個connection，這樣開銷很大，如果使用mapPartitions，那麼只需要針對每一個分割槽建立一個connection。

JavaRDD<Integer> mapOrder = sc.textFile(logFile,3).map(new Function<String,Integer>(){//讀取文字，分成3個分割槽

			public Integer call(String v1) throws Exception {
				// TODO Auto-generated method stub
				return Integer.parseInt(v1);
			}

			
        	
        });

TTLPartition ttl=new TTLPartition();
       // ttl.setup();
        JavaPairRDD<Integer, String> res1Pair=
        		mapOrder.mapPartitionsToPair( ttl).partitionBy(new HashPartitioner(1)).//ttl物件是你要處理資料的邏輯
        		reduceByKey(new Function2<String,String,String>(){

					public String call(String v1, String v2) throws Exception {
						// TODO Auto-generated method stub
						return v1+v2;
					}}).sortByKey();

mapPartitionsToPair的call方法實現如下：

public Iterator<Tuple2<Integer, String>> call(Iterator<Integer> t) throws Exception {
		// TODO Auto-generated method stub
		setup();//這樣就實現mapreduce中對每一個split做預處理，之後才是該split中每一個數據的處理邏輯：迭代器t遍歷split,每個資料執行一次map方法
		int vi=0;
		while(t.hasNext())
		{
			vi=t.next();
			map(vi);
		}

                cleanup();

Spark如何實現MapReduce中的setup和cleanup方法

Spark如何實現MapReduce中的setup和cleanup方法

JUnit測試中setup()和teardown()方法

Spark中DenseMatrix中values()和toArray方法的區別

MapReduce階段map的setup() 和cleanup()

Spark機器學習中ml和mllib中矩陣、向量

servlet表單中get和post方法的區別

Java中wait和sleep方法的區別

淺析c#中==操作符和equals方法

java 中sendredirect()和forward()方法的區別

mapreduce中map和reduce個數

javascript中encodeURI和decodeURI方法

Java 中hashCode()和equals()方法

Java中synchronized和同步方法

面試官問：能否模擬實現JS的call和apply方法

關於python中loc和iloc方法

java中set()和get()方法的理解

JavaScript中call和apply方法的使用

HTTP中GET和POST方法的區別

java中compareTo和compare方法之比較

pandas中apply和transform方法的效能比較

Spark如何實現MapReduce中的setup和cleanup方法

相關推薦