1. 程式人生 > >《資料演算法:Hadoop_Spark大資料處理技巧》艾提拉筆記.docx 第1章二次排序:簡介 19 第2章二次排序:詳細示例 42 第3章 Top 10 列表 54 第4章左外連線 96 第5

《資料演算法:Hadoop_Spark大資料處理技巧》艾提拉筆記.docx 第1章二次排序:簡介 19 第2章二次排序:詳細示例 42 第3章 Top 10 列表 54 第4章左外連線 96 第5

《資料演算法:Hadoop_Spark大資料處理技巧》艾提拉筆記.docx

 

 

 

第1章二次排序:簡介 19

第2章二次排序:詳細示例 42

第3章 Top 10 列表 54

第4章左外連線 96

第5章反轉排序 127

第6章移動平均 137

第7章購物籃分析 155

第8章共同好友 182

第9章使用MapReduce實現推薦引擎 201

第10章基於內容的電影推薦 225

第11章使用馬爾可夫模型的智慧郵件營銷 .253

第12章 K-均值聚類 282

第13章 k-近鄰 296

第14章樸素貝葉斯 315

第15章情感分析 349

第16章查詢、統計和列出大圖中的所有三角形 354

第17章 K-mer計數 375

第18章 DNA測序 390

第19章 Cox迴歸 413

第20章 Cochran-Armitage趨勢檢驗 426

第21章等位基因頻率 443

第22章 T檢驗 468

第23章皮爾遜相關係數 488

第24章 DNA鹼基計數 520

第25章 RNA測序 543

第26章基因聚合 553

第27章線性迴歸 586

第28章 MapReduce和么半群 600

第29章小檔案問題 622

第30章 MapReduce的大容量快取 635

第31章 Bloom過濾器 651Bloom

 

前言 3
第1章二次排序:簡介 19
二次排序問題解決方案 21
MapReduce/Hadoop的二次排序解決方案 25
Spark的二次排序解決方案 29
第2章二次排序:詳細示例 42
二次排序技術 43
二次排序的完整示例 46
執行示例——老版本Hadoop API 50
執行示例——新版本Hadoop API 52
第3章 Top 10 列表 54
Top N 設計模式的形式化描述 55
MapReduce/Hadoop實現:唯一鍵 56
Spark實現:唯一鍵 62
Spark實現:非唯一鍵 73
使用takeOrdered()的Spark Top 10 解決方案 84


MapReduce/Hadoop Top 10 解決方案:非唯一鍵 91
第4章左外連線 96
左外連線示例 96
MapReduce左外連線實現 99
Spark左外連線實現 105
使用leftOuterJoin()的Spark實現 117
第5章反轉排序 127
反轉排序模式示例 128
反轉排序模式的MapReduce/Hadoop實現 129
執行示例 134
第6章移動平均 137
示例1:時間序列資料(股票價格) 137
示例2:時間序列資料(URL訪問數) 138
形式定義 139
POJO移動平均解決方案 140
MapReduce/Hadoop移動平均解決方案 143
第7章購物籃分析 155
MBA目標 155
MBA的應用領域 157
使用MapReduce的購物籃分析 157
Spark解決方案 166
執行Spark實現的YARN 指令碼 179
第8章共同好友 182
輸入 183
POJO共同好友解決方案 183
MapReduce演算法 184
解決方案1: 使用文字的Hadoop實現 187
解決方案2: 使用ArrayListOfLongsWritable 的Hadoop實現 189
Spark解決方案 191
第9章使用MapReduce實現推薦引擎 201
購買過該商品的顧客還購買了哪些商品 202
經常一起購買的商品 206
推薦連線 210
第10章基於內容的電影推薦 225
輸入 226
MapReduce階段1 226
MapReduce階段2和階段3 227
Spark電影推薦實現 234
第11章使用馬爾可夫模型的智慧郵件營銷 .253
馬爾可夫鏈基本原理 254
使用MapReduce的馬爾可夫模型 256
Spark解決方案 269
第12章 K-均值聚類 282
什麼是K-均值聚類? 285
聚類的應用領域 285
K-均值聚類方法非形式化描述:分割槽方法 286
K-均值距離函式 286
K-均值聚類形式化描述 287
K-均值聚類的MapReduce解決方案 288
K-均值演算法Spark實現 292
第13章 k-近鄰 296
kNN分類 297
距離函式 297
kNN示例 298
kNN演算法非形式化描述 299
kNN演算法形式化描述 299
kNN的類Java非MapReduce 解決方案 299
Spark的kNN演算法實現 301
第14章樸素貝葉斯 315
訓練和學習示例 316
條件概率 319
深入分析樸素貝葉斯分類器 319
樸素貝葉斯分類器:符號資料的MapReduce解決方案 322
樸素貝葉斯分類器Spark實現 332
使用Spark和Mahout 347
第15章情感分析 349
情感示例 350
情感分數:正面或負面 350
一個簡單的MapReduce情感分析示例 351
真實世界的情感分析 353
第16章查詢、統計和列出大圖中的所有三角形 354
基本的圖概念 355
三角形計數的重要性 356
MapReduce/Hadoop解決方案 357
Spark解決方案 364
第17章 K-mer計數 375
K-mer計數的輸入資料 376
K-mer計數應用 376
K-mer計數MapReduce/Hadoop解決方案 377
K-mer計數Spark解決方案 378
第18章 DNA測序 390
DNA測序的輸入資料 392
輸入資料驗證 393
DNA序列比對 393
DNA測試的MapReduce演算法 394
第19章 Cox迴歸 413
Cox模型剖析 414
使用R的Cox迴歸 415
Cox迴歸應用 416
Cox迴歸 POJO解決方案 417
MapReduce輸入 418
使用MapReduce的Cox迴歸 419
第20章 Cochran-Armitage趨勢檢驗 426
Cochran-Armitage演算法 427
Cochran-Armitage應用 432
MapReduce解決方案 435
第21章等位基因頻率 443
基本定義 444
形式化問題描述 448
等位基因頻率分析的MapReduce解決方案 449
MapReduce解決方案, 階段1 449
MapReduce解決方案,階段2 459
MapReduce解決方案, 階段3 463
染色體X 和Y的特殊處理 466
第22章 T檢驗 468
對bioset完成T檢驗 469
MapReduce問題描述 472
輸入 472
期望輸出 473
MapReduce解決方案 473
Spark實現 476
第23章皮爾遜相關係數 488
皮爾遜相關係數公式 489
皮爾遜相關係數示例 491
皮爾遜相關係數資料集 492
皮爾遜相關係數POJO 解決方案 492
皮爾遜相關係數MapReduce解決方案 493
皮爾遜相關係數的Spark 解決方案 496
執行Spark程式的YARN 指令碼 516
使用Spark計算斯皮爾曼相關係數 517
第24章 DNA鹼基計數 520
FASTA 格式 521
FASTQ 格式 522
MapReduce解決方案:FASTA 格式 522
執行示例 524
MapReduce解決方案: FASTQ 格式 528
Spark 解決方案: FASTA 格式 533
Spark解決方案: FASTQ 格式 537
第25章 RNA測序 543
資料大小和格式 543
MapReduce工作流 544
RNA測序分析概述 544
RNA測序MapReduce演算法 548
第26章基因聚合 553
輸入 554
輸出 554
MapReduce解決方案(按單個值過濾和按平均值過濾) 555
基因聚合的Spark解決方案 567
Spark解決方案:按單個值過濾 567
Spark解決方案:按平均值過濾 576
第27章線性迴歸 586
基本定義 587
簡單示例 587
問題描述 588
輸入資料 589
期望輸出 590
使用SimpleRegression的MapReduce解決方案 590
Hadoop實現類 593
使用R線性模型的MapReduce解決方案 593
第28章 MapReduce和么半群 600
概述 600
么半群的定義 602
么半群和非么半群示例 603
MapReduce示例:非么半群 606
MapReduce示例:么半群 608
使用么半群的Spark示例 612
使用么半群的結論 618
函子和么半群 619
第29章小檔案問題 622
解決方案1:在客戶端合併小檔案 623
解決方案2:用CombineFileInputFormat解決小檔案問題 629
其他解決方案 634
第30章 MapReduce的大容量快取 635
實現方案 636
快取問題形式化描述 637
一個精巧、可伸縮的解決方案 637
實現LRUMap快取 640
使用LRUMap的MapReduce解決方案 646
第31章 Bloom過濾器 651Bloom
過濾器性質 651
一個簡單的Bloom過濾器示例 653

 

 

《資料演算法:Hadoop_Spark大資料處理技巧》([美]Mahmoud Parsian(馬哈默德·帕瑞斯安))【簡介_書評_線上閱讀】 - 噹噹圖書.html