spark學習-20-Spark的sample理解

阿新 • • 發佈：2019-02-13

1.語法（java）：

JavaPairRDD<K,V> sample(boolean withReplacement,
                    double fraction)

JavaPairRDD<K,V> sample(boolean withReplacement,
                    double fraction,
                    long seed)

2.說明：

對RDD進行抽樣，其中引數withReplacement為true時表示抽樣之後還放回，可以被多次抽樣，false表示不放回；fraction表示抽樣比例；seed為隨機數種子，比如當前時間戳

3.程式演示

package mysample;

import java.util.Arrays;
import java.util.List;

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;





public class Sample {
    public static void main(String[] args) {

        SparkSession spark= SparkSession.builder 
()  
                    .appName("lcc_java_read_hbase_register_to_table")  
                    .master("local[*]")  
                    .getOrCreate();  

        JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

        List<Integer> datas = Arrays.asList(1, 2, 3, 4,5,6,7,8 
,9,10);
        JavaRDD<Integer> dataRDD = sc.parallelize(datas);

        JavaRDD<Integer> sampleRDD = dataRDD.sample(false, 0.5, System.currentTimeMillis());
        System.out.println("==========sampleRDD=====1==========");
        sampleRDD.foreach(v -> System.out.println(v));

        JavaRDD<Integer> sampleRDD2 = dataRDD.sample(true, 0.5, System.currentTimeMillis());
        System.out.println("==========sampleRDD=====2==========");
        sampleRDD2.foreach(v -> System.out.println(v));





        sc.close();
    }
}

輸出結果

==========sampleRDD=====1==========
5
8
3
==========sampleRDD=====2==========
7
7
5
8

小結：每次執行列印的都不相同，相當於java中的隨機函式，場景類似與，黑盒子裡拿紅白球，
有兩種拿法一種，
拿出來後在放進去，讓別人拿，可能相同，dataRDD.sample(false, 0.5, System.currentTimeMillis());
拿出來後不放進去，讓別人拿，絕對不相同 dataRDD.sample(true, 0.5, System.currentTimeMillis());

4.測試第二個引數

JavaRDD<Integer> sampleRDD = dataRDD.sample(false, 0.1, System.currentTimeMillis());
JavaRDD<Integer> sampleRDD2 = dataRDD.sample(true, 0.1, System.currentTimeMillis());

第一次執行
==========sampleRDD=====1==========
9
==========sampleRDD=====2==========
第二次執行
==========sampleRDD=====1==========
9
10
==========sampleRDD=====2==========
1
10


JavaRDD<Integer> sampleRDD = dataRDD.sample(false, 0.6, System.currentTimeMillis());
JavaRDD<Integer> sampleRDD2 = dataRDD.sample(true, 0.6, System.currentTimeMillis());
第一次執行
==========sampleRDD=====1==========
6
8
9
10
1
3
4

第二次執行
==========sampleRDD=====2==========
2
4
4
6
7
8
10
1
3
4
5
==========sampleRDD=====2==========
1
2
4
5
6
8
8
8
9

這個有什麼用呢？

在資料傾斜的時候，我們那麼多資料如果想知道那個key傾斜了，就需要我們取樣獲取這些key，如果這些key資料不是很重要的話，可以過濾掉，這樣就解決了資料傾斜。

spark學習-20-Spark的sample理解

1.語法（java）： JavaPairRDD<K,V> sample(boolean withReplacement, double fraction) JavaPairRDD<K,V>

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

Spark學習——spark中的幾個概念的理解及引數配置

首先是一張spark的部署圖：節點型別有： 1. master 節點：常駐master程序，負責管理全部worker節點。 2. worker 節點：常駐worker程序，負責管理execu

Spark學習筆記——文本處理技術

使用 ken ins main 最小 leg tran sparse rain 1.建立TF-IDF模型 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.lin

Spark學習筆記——泰坦尼克生還預測

cti build case model 學習筆記 classes gre dict path package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf i

Spark學習散點總結

python spark 人的 bin == count mic alex ext 使用Spark 時，通常會有兩種模式。一、在交互式編程環境（REPL, a.k.a spark-shell）下實現一些代碼，測試一些功能點。二、像MapReduce 那樣提前編寫好源代碼並編

spark學習(基礎篇)--(第三節)Spark幾種運行模式

一些記錄 image ica runner 1.3 函數 ive 啟動 driver h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff

學習20 css文本控制標簽

code 認識編碼 oct utf-8 自己 col title itl <!doctype html> <html> <head> <meta charset="utf-8">  &

對JS基礎學習的重新理解

運行字符類型 ima 進行其中精度一點 image 小數點　　　　　　　　　　JS串講數據類型： float：單精度小數（小數點後面的位數相對來說要小一點） double：雙精度小數（小數點後面的位數多的話用這個） decimal：小數（如果小數點

學習Nginx之理解正向代理和反向代理

用戶訪問 gin margin 進行 ron 用途工作訪問 .net 正向代理的概念正向代理,也就是傳說中的代理,他的工作原理就像一個跳板,簡單的說,我是一個用戶,我訪問不了某網站,但是我能訪問一個代理服務器這個代理服務器呢,他能訪問那個我不能訪問的網站於是我先連上

Spark學習筆記(一)

-s 環境從數據多個成了 lib one python ted 概念： Spark是加州大學伯克利分校AMP實驗室，開發的通用內存並行計算框架。支持用scala、java和Python等語言編寫應用程序。相較於Hdoop，往往有更好的運行效率。 Spark包括了Sp

Spark 學習筆記之 MONGODB SPARK CONNECTOR 插入性能測試

log font span 技術 strong mongos str server 學習 MONGODB SPARK CONNECTOR 測試數據量：測試結果： 116萬數據通過4個表的join，從SQL Server查出，耗時1分多。MongoSp

【轉】深度學習基礎概念理解

器）好處網站 water weight tar 直觀 str view 原文鏈接神經網絡基礎 1）神經元（Neuron）——就像形成我們大腦基本元素的神經元一樣，神經元形成神經網絡的基本結構。想象一下，當我們得到新信息時我們該怎麽做。當我們獲取信息時，我們一般會處

Spark學習筆記3：鍵值對操作

對象常用 ava java 參數通過頁面 ascend 處理過程鍵值對RDD通常用來進行聚合計算，Spark為包含鍵值對類型的RDD提供了一些專有的操作。這些RDD被稱為pair RDD。pair RDD提供了並行操作各個鍵或跨節點重新進行數據分組的操作接口。 Sp

Spark學習筆記4：數據讀取與保存

讀取數據 chapter byte hadoop tar .lib 文件中 api sequence Spark對很多種文件格式的讀取和保存方式都很簡單。Spark會根據文件擴展名選擇對應的處理方式。 Spark支持的一些常見文件格式如下：　1、文本文件　　　使用文件

spark 學習筆記-spark2.2.0

submit -- org hdf doc kpi jdk profile apach master:192.168.11.2 s1:192.168.11.3 s2 :192.168.11.4 共三個節點第一步配置(三臺一樣) http://

機器學習基本概念理解

機器學習基本概念理解數據集：關系型數據庫中有很多表，表裏面有很多記錄，很多記錄就可以認為是數據集屬性（特征）：一個表中有很多條記錄，每條記錄的表有很多屬性，如tb_stu(stu_id,stuname,stu_sex)s表中有3條屬性屬性值：屬性的取值，如stu_id可以等於1,2.3....n。stu_se

Spark 學習筆記之 Standalone與Yarn啟動和運行時間測試

span ima 上傳運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試：寫一個簡單的wordcount：打包上傳運行： Standalone啟動：運行時間：

spark中flatMap函數用法--spark學習（基礎）

比較一次 ica 例子 tail details word fix spark spark中flatMap函數用法--spark學習（基礎）在spark中map函數和flatMap函數是兩個比較常用的函數。其中 map：對集合中每個元素進行操作。 fl

Spark 學習筆記之 Streaming Window

min .cn spa pan tex def rec mas clas Streaming Window: 上圖意思：每隔2秒統計前3秒的數據 slideDuration: 2 windowDuration: 3 例子: import org.apach

spark學習-20-Spark的sample理解

這個有什麼用呢？

相關推薦