spark學習13之RDD的partitions數目獲取

阿新 • • 發佈：2019-01-07

1解釋
獲取RDD的partitions數目和index資訊
疑問：為什麼純文字的partitions數目與HDFS的block數目一樣，但是.gz的壓縮檔案的partitions數目卻為1？

2.程式碼：

sc.textFile("/xubo/GRCH38Sub/GRCH38L12566578.fna").partitions.length

sc.textFile("/xubo/GRCH38Sub/GRCH38L12566578.fna.bwt").partitions.foreach(each=>println(each.index))

spark1.6中可以直接獲取：

 @Since("1.6.0") 

  final def getNumPartitions: Int = partitions.length

3.結果：
（1）第一個檔案

partitions數：

scala> sc.textFile("/xubo/GRCH38Sub/GRCH38L12566578.fna").partitions.length
res2: Int = 7

詳細資訊：

scala> sc.textFile("/xubo/GRCH38Sub/GRCH38L12566578.fna.bwt").partitions.foreach(each=>println(each.index))
0
1
2 

3
4
5
6

（2）第二個檔案：

scala> sc.textFile(file).partitions.foreach(each=>println(each.index))
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

（3）第三個檔案:
但是gz檔案: 大小差不多，但是partition卻為1

scala> sc.textFile("/xubo/data/GRCH38/GCA_000001405.15_GRCh38_full_analysis_set.fna.bwa_index.tar.gz").partitions 
.length
res5: Int = 1

index：

scala> sc.textFile("/xubo/data/GRCH38/GCA_000001405.15_GRCh38_full_analysis_set.fna.bwa_index.tar.gz").partitions.foreach(each=>println(each.index))
0

這裡寫圖片描述

（4）大檔案（3G），同樣的：

scala> val file="/xubo/data/GRCH38/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_full_plus_hs38d1_analysis_set.fna.bowtie_index.tar.gz"
file: String = /xubo/data/GRCH38/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_full_plus_hs38d1_analysis_set.fna.bowtie_index.tar.gz

scala> sc.textFile(file).partitions.foreach(each=>println(each.index))
0

這裡寫圖片描述

4.本來想在RDD加一個獲取partitions數量的函式或者屬性，但是已看程式碼，1.6中有人加了：


  /**
   * Returns the number of partitions of this RDD.
   */
  @Since("1.6.0")
  final def getNumPartitions: Int = partitions.length

目前不確定為什麼blocks數一樣，生成的partitions數不一樣的原因，所以有待學習

spark學習13之RDD的partitions數目獲取

1解釋獲取RDD的partitions數目和index資訊疑問：為什麼純文字的partitions數目與HDFS的block數目一樣，但是.gz的壓縮檔案的partitions數目卻為1？ 2.程式碼： sc.textFile("/xubo/GR

Spark 學習筆記之 MONGODB SPARK CONNECTOR 插入性能測試

log font span 技術 strong mongos str server 學習 MONGODB SPARK CONNECTOR 測試數據量：測試結果： 116萬數據通過4個表的join，從SQL Server查出，耗時1分多。MongoSp

Spark 學習筆記之 Standalone與Yarn啟動和運行時間測試

span ima 上傳運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試：寫一個簡單的wordcount：打包上傳運行： Standalone啟動：運行時間：

Spark 學習筆記之 Streaming Window

min .cn spa pan tex def rec mas clas Streaming Window: 上圖意思：每隔2秒統計前3秒的數據 slideDuration: 2 windowDuration: 3 例子: import org.apach

Spark學習系列之SparkContext

1. SparkContext類是Spark的關鍵類，程式碼在這裡：./core/src/main/scala/org/apache/spark/SparkContext.scala。SparkContext是Spark的入口，負責連線Spark叢集，建立RDD，累積量和廣播量等。從本質上來說，Sp

spark學習筆記之二：寬依賴和窄依賴

1.如果父RDD裡的一個partition只去向一個子RDD裡的partition為窄依賴，否則為寬依賴（只要是shuffle操作）。 2.spark根據運算元判斷寬窄依賴：窄依賴：map

spark學習14之使用maven快速切換本地除錯的spark版本

1解釋有時候叢集裝了某個版本的spark，想再裝一個版本，想簡單點，可以選擇本地使用idea中的maven。本文主要是從spark1.5.2切換到spark1.6.1 2.程式碼： spark-1.5.2： <?xml version

Spark學習筆記之-Spark遠端除錯

Spark遠端除錯本例子介紹簡單介紹spark一種遠端除錯方法，使用的IDE是IntelliJ IDEA。 1、瞭解jvm一些引數屬性 -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,addres

spark學習03之wordCount統計並排序(java)

wordCount就是對一大堆單詞進行個數統計，然後排序。從網上找篇英文文章放到本地文件。 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://

Spark學習筆記之WordCount

1.pom.xml <dependencies> <!-- 匯入scala的依賴 --&g

Spark機器學習系列之13：支援向量機SVM

C−SVM基本公式推導過程下面摘抄一小部分內容（不考慮推導細節的話，基本上能理解C-SVM方法推導的整個流程）. 我們用一個超平面劃分圖中對圖中的兩類資料進行分類，超平面寫成f(x)=wTx+b=0,線上性可分的情況下，我們能找到一

13.solr學習速成之IK分詞器

更新 api 一個廣泛針對 -i 處理器多個 -1 IKAnalyzer簡介 IKAnalyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包。 IKAnalyzer特性 a. 算法采用“正向叠代最細粒度切分算法”，支持細粒度和最大詞

SQL Server學習記錄之獲取每月每季度每年第一天和最後一天

第一天 ediff code spa -1 指定日期 ctc 算法 datetime DECLARE@dtdatetime SET@dt=GETDATE() DECLARE@numberint SET@number=3 --1．指定日期該年的第一天或最後

php之快速入門學習-13(PHP 循環 - While 循環)

style 快速入門數組執行 span tro 運行設置快速 PHP 循環 - While 循環循環執行代碼塊指定的次數，或者當指定的條件為真時循環執行代碼塊。 PHP 循環在您編寫代碼時，您經常需要讓相同的代碼塊一次又一次地重復運行。我們可以在代

Spark學習之第一個程序打包、提交任務到集群

4.4.2 2.6.0 reat apach import chmod 程序 rsa cas 1、免秘鑰登錄配置： ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys ch

FineBI學習系列之FineBI與Spark數據連接（圖文詳解）

gpo 編碼轉換 nload -s div 語言分享圖片 bre con 不多說，直接上幹貨！　　這是來自FineBI官網提供的幫助文檔 http://help.finebi.com/http://help.finebi.com/doc-vie

Spark學習之路（二）Spark2.3 HA集群的分布式安裝

serve html 元數據不安裝 rec ive cut 再次 apps 一、下載Spark安裝包 1、從官網下載 http://spark.apache.org/downloads.html 2、從微軟的鏡像站下載 http://mirrors.hust.

Spark學習之路（四）Spark的廣播變量和累加器

img 還原變量定義如果 style 調優學習之路 park 系統一、概述在spark程序中，當一個傳遞給Spark操作(例如map和reduce)的函數在遠程節點上面運行時，Spark操作實際上操作的是這個函數所用變量的一個獨立副本。這些變量會被復制到每臺機器

Spark學習之路（十一）SparkCore的調優之Spark內存模型

精準規模 memory 此外結構定義申請管理方式存儲內部摘抄自：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index

Spark學習之路（十二）SparkCore的調優之資源調優JVM的基本架構

程序員存儲 src ron 指示器引用 double strong 功能一、JVM的結構圖 1.1　Java內存結構 JVM內存結構主要有三大塊：堆內存、方法區和棧。堆內存是JVM中最大的一塊由年輕代和老年代組成，而年輕代內存又被分成三部分，Eden空間、

spark學習13之RDD的partitions數目獲取

相關推薦