1. 程式人生 > >大資料:網際網路大規模資料探勘與分散式處理pdf

大資料:網際網路大規模資料探勘與分散式處理pdf

目  錄

第1章  資料探勘基本概念  1
1.1  資料探勘的定義  1
1.1.1  統計建模  1
1.1.2  機器學習  1
1.1.3  建模的計算方法  2
1.1.4  資料彙總  2
1.1.5  特徵抽取  3
1.2  資料探勘的統計限制  4
1.2.1  整體情報預警  4
1.2.2  邦弗朗尼原理  4
1.2.3  邦弗朗尼原理的一個例子  5
1.2.4  習題  6
1.3  相關知識  6
1.3.1  詞語在文件中的重要性  6
1.3.2  雜湊函式  7
1.3.3  索引  8
1.3.4  二級儲存器  10
1.3.5  自然對數的底e  10
1.3.6  冪定律  11
1.3.7  習題  12
1.4  本書概要  13
1.5  小結  14
1.6  參考文獻  14
第2章  大規模檔案系統及Map-Reduce  16
2.1  分散式檔案系統  16
2.1.1  計算節點的物理結構  17
2.1.2  大規模檔案系統的結構  18
2.2  Map-Reduce  18
2.2.1  Map任務  19
2.2.2  分組和聚合  20
2.2.3  Reduce任務  20
2.2.4  組合器  21
2.2.5  Map-Reduce的執行細節  21
2.2.6  節點失效的處理  22
2.3  使用Map-Reduce的演算法  22
2.3.1  基於Map-Reduce的矩陣—向量乘法實現  23
2.3.2  向量v無法放入記憶體時的處理  23
2.3.3  關係代數運算  24
2.3.4  基於Map-Reduce的選擇運算  26
2.3.5  基於Map-Reduce的投影運算  26
2.3.6  基於Map-Reduce的並、交和差運算  27
2.3.7  基於Map-Reduce的自然連線運算  27
2.3.8  一般性的連線演算法  28
2.3.9  基於Map-Reduce的分組和聚合運算  28
2.3.10  矩陣乘法  29
2.3.11  基於單步Map-Reduce的矩陣乘法  29
2.3.12  習題  30
2.4  Map-Reduce的擴充套件  31
2.4.1  工作流系統  31
2.4.2  Map-Reduce的遞迴擴充套件版本  32
2.4.3  Pregel系統  34
2.4.4  習題  35
2.5  叢集計算演算法的效率問題  35
2.5.1  叢集計算的通訊開銷模型  35
2.5.2  實耗通訊開銷  36
2.5.3  多路連線  37
2.5.4  習題  40
2.6  小結  40
2.7  參考文獻  42
第3章  相似項發現  44
3.1  近鄰搜尋的應用  44
3.1.1  集合的Jaccard相似度  44
3.1.2  文件的相似度  45
3.1.3  協同過濾——一個集合相似問題  46
3.1.4  習題  47
3.2  文件的Shingling  47
3.2.1  k-Shingle  47
3.2.2  shingle大小的選擇  48
3.2.3  對shingle進行雜湊  48
3.2.4  基於詞的shingle  49
3.2.5  習題  49
3.3  保持相似度的集合摘要表示  49
3.3.1  集合的矩陣表示  50
3.3.2  最小雜湊  50
3.3.3  最小雜湊及Jaccard相似度  51
3.3.4  最小雜湊簽名  52
3.3.5  最小雜湊簽名的計算  52
3.3.6  習題  54
3.4  文件的區域性敏感雜湊演算法  55
3.4.1  面向最小雜湊簽名的LSH  56
3.4.2  行條化策略的分析  57
3.4.3  上述技術的綜合  58
3.4.4  習題  59
3.5  距離測度  59
3.5.1  距離測度的定義  59
3.5.2  歐氏距離  60
3.5.3  Jaccard距離  60
3.5.4  餘弦距離  61
3.5.5  編輯距離  62
3.5.6  海明距離  63
3.5.7  習題  63
3.6  區域性敏感函式理論  64
3.6.1  區域性敏感函式  65
3.6.2  面向Jaccard距離的區域性敏感函式族  66
3.6.3  區域性敏感函式族的放大處理  66
3.6.4  習題  68
3.7  面向其他距離測度的LSH函式族  68
3.7.1  面向海明距離的LSH函式族  69
3.7.2  隨機超平面和餘弦距離  69
3.7.3  梗概  70
3.7.4  面向歐氏距離的LSH函式族  71
3.7.5  面向歐氏空間的更多LSH函式族  72
3.7.6  習題  72
3.8  LSH函式的應用  73
3.8.1  實體關聯  73
3.8.2  一個實體關聯的例子  74
3.8.3  記錄匹配的驗證  74
3.8.4  指紋匹配  75
3.8.5  適用於指紋匹配的LSH函式族  76
3.8.6  相似新聞報道檢測  77
3.8.7  習題  78
3.9  面向高相似度的方法  79
3.9.1  相等項發現  79
3.9.2  集合的字串表示方法  79
3.9.3  基於長度的過濾  80
3.9.4  字首索引  81
3.9.5  位置資訊的使用  82
3.9.6  使用位置和長度資訊的索引  83
3.9.7  習題  85
3.10  小結  85
3.11  參考文獻  87
第4章  資料流挖掘  89
4.1  流資料模型  89
4.1.1  一個數據流管理系統  89
4.1.2  流資料來源的例子  90
4.1.3  流查詢  91
4.1.4  流處理中的若干問題  92
4.2  流當中的資料抽樣  92
4.2.1  一個富於啟發性的例子  93
4.2.2  代表性樣本的獲取  93
4.2.3  一般的抽樣問題  94
4.2.4  樣本規模的變化  94
4.2.5  習題  95
4.3  流過濾  95
4.3.1  一個例子  95
4.3.2  布隆過濾器  96
4.3.3  布隆過濾方法的分析  96
4.3.4  習題  97
4.4  流中獨立元素的數目統計  98
4.4.1  獨立元素計數問題  98
4.4.2  FM演算法  98
4.4.3  組合估計  99
4.4.4  空間需求  100
4.4.5  習題  100
4.5  矩估計  100
4.5.1  矩定義  100
4.5.2  二階矩估計的AMS演算法  101
4.5.3  AMS演算法有效的原因  102
4.5.4  更高階矩的估計  103
4.5.5  無限流的處理  103
4.5.6  習題  104
4.6  視窗內的計數問題  105
4.6.1  精確計數的開銷  105
4.6.2  DGIM演算法  105
4.6.3  DGIM演算法的儲存需求  107
4.6.4  DGIM演算法中的查詢應答  107
4.6.5  DGIM條件的保持  108
4.6.6  降低錯誤率  109
4.6.7  視窗內計數問題的擴充套件  109
4.6.8  習題  110
4.7  衰減視窗  110
4.7.1  最常見元素問題  110
4.7.2  衰減視窗的定義  111
4.7.3  最流行元素的發現  111
4.8  小結  112
4.9  參考文獻  113
第5章  連結分析  115
5.1  PageRank  115
5.1.1  早期的搜尋引擎及詞項作弊  115
5.1.2  PageRank的定義  117
5.1.3  Web結構  119
5.1.4  避免終止點  121
5.1.5  採集器陷阱及“抽稅”法  123
5.1.6  PageRank在搜尋引擎中的使用  125
5.1.7  習題  125
5.2  PageRank的快速計算  126
5.2.1  轉移矩陣的表示  127
5.2.2  基於Map-Reduce的PageRank迭代計算  128
5.2.3  結果向量合併時的組合器使用  128
5.2.4  轉移矩陣中塊的表示  129
5.2.5  其他高效的PageRank迭代方法  130
5.2.6  習題  131
5.3  面向主題的PageRank  131
5.3.1  動機  131
5.3.2  有偏的隨機遊走模型  132
5.3.3  面向主題的PageRank的使用  133
5.3.4  基於詞彙的主題推斷  134
5.3.5  習題  134
5.4  連結作弊  135
5.4.1  垃圾農場的架構  135
5.4.2  垃圾農場的分析  136
5.4.3  與連結作弊的鬥爭  137
5.4.4  TrustRank  137
5.4.5  垃圾質量  137
5.4.6  習題  138
5.5  導航頁和權威頁  139
5.5.1  HITS的直觀意義  139
5.5.2  導航度和權威度的形式化  139
5.5.3  習題  142
5.6  小結  143
5.7  參考文獻  145
第6章  頻繁項集  146
6.1  購物籃模型  146
6.1.1  頻繁項集的定義  146
6.1.2  頻繁項集的應用  148
6.1.3  關聯規則  149
6.1.4  高可信度關聯規則的發現  150
6.1.5  習題  151
6.2  購物籃及A-Priori演算法  152
6.2.1  購物籃資料的表示  152
6.2.2  項集計數中的記憶體使用  153
6.2.3  項集的單調性  154
6.2.4  二元組計數  155
6.2.5  A-Priori演算法  155
6.2.6  所有頻繁項集上的A-Priori演算法  157
6.2.7  習題  158
6.3  更大資料集在記憶體中的處理  159
6.3.1  PCY演算法  160
6.3.2  多階段演算法  161
6.3.3  多雜湊演算法  163
6.3.4  習題  164
6.4  有限掃描演算法  166
6.4.1  簡單的隨機化演算法  166
6.4.2  抽樣演算法中的錯誤規避  167
6.4.3  SON演算法  168
6.4.4  SON演算法和Map-Reduce  168
6.4.5  Toivonen演算法  169
6.4.6  Toivonen演算法的有效性分析  170
6.4.7  習題  170
6.5  流中的頻繁項計數  171
6.5.1  流的抽樣方法  171
6.5.2  衰減視窗中的頻繁項集  172
6.5.3  混合方法  172
6.5.4  習題  173
6.6  小結  173
6.7  參考文獻  175
第7章  聚類  176
7.1  聚類技術介紹  176
7.1.1  點、空間和距離  176
7.1.2  聚類策略  177
7.1.3  維數災難  178
7.1.4  習題  179
7.2  層次聚類  179
7.2.1  歐氏空間下的層次聚類  180
7.2.2  層次聚類演算法的效率  183
7.2.3  控制層次聚類的其他規則  183
7.2.4  非歐空間下的層次聚類  185
7.2.5  習題  186
7.3  k-均值演算法  187
7.3.1  k-均值演算法基本知識  187
7.3.2  k-均值演算法的簇初始化  187
7.3.3  選擇k的正確值  188
7.3.4  BFR演算法  189
7.3.5  BFR演算法中的資料處理  191
7.3.6  習題  192
7.4  CURE演算法  193
7.4.1  CURE演算法的初始化  194
7.4.2  CURE演算法的完成  195
7.4.3  習題  195
7.5  非歐空間下的聚類  196
7.5.1  GRGPF演算法中的簇表示  196
7.5.2  簇表示樹的初始化  196
7.5.3  GRGPF演算法中的點加入  197
7.5.4  簇的分裂及合併  198
7.5.5  習題  199
7.6  流聚類及並行化  199
7.6.1  流計算模型  199
7.6.2  一個流聚類演算法  200
7.6.3  桶的初始化  200
7.6.4  桶合併  200
7.6.5  查詢應答  202
7.6.6  並行環境下的聚類  202
7.6.7  習題  203
7.7  小結  203
7.8  參考文獻  205
第8章  Web廣告  207
8.1  線上廣告相關問題  207
8.1.1  廣告機會  207
8.1.2  直投廣告  208
8.1.3  展示廣告的相關問題  208
8.2  線上演算法  209
8.2.1  線上和離線演算法  209
8.2.2  貪心演算法  210
8.2.3  競爭率  211
8.2.4  習題  211
8.3  廣告匹配問題  212
8.3.1  匹配及完美匹配  212
8.3.2  最大匹配貪心演算法  213
8.3.3  貪心匹配演算法的競爭率  213
8.3.4  習題  214
8.4  Adwords問題  214
8.4.1  搜尋廣告的歷史  215
8.4.2  Adwords問題的定義  215
8.4.3  Adwords問題的貪心方法  216
8.4.4  Balance演算法  217
8.4.5  Balance演算法競爭率的一個下界  217
8.4.6  多投標者的Balance演算法  219
8.4.7  一般性的Balance演算法  220
8.4.8  Adwords問題的最後論述  221
8.4.9  習題  221
8.5  Adwords的實現  221
8.5.1  投標和搜尋查詢的匹配  222
8.5.2  更復雜的匹配問題  222
8.5.3  文件和投標之間的匹配演算法  223
8.6  小結  224
8.7  參考文獻  226
第9章  推薦系統  227
9.1  一個推薦系統的模型  227
9.1.1  效用矩陣  227
9.1.2  長尾現象  228
9.1.3  推薦系統的應用  230
9.1.4  效用矩陣的填充  230
9.2  基於內容的推薦  231
9.2.1  項模型  231
9.2.2  文件的特徵發現  231
9.2.3  基於Tag的項特徵獲取  232
9.2.4  項模型的表示  233
9.2.5  使用者模型  234
9.2.6  基於內容的項推薦  235
9.2.7  分類演算法  235
9.2.8  習題  237
9.3  協同過濾  238
9.3.1  相似度計算  238
9.3.2  相似度對偶性  241
9.3.3  使用者聚類和項聚類  242
9.3.4  習題  243
9.4  降維處理  243
9.4.1  UV分解  244
9.4.2  RMSE  244
9.4.3  UV分解的增量式計算  245
9.4.4  對任一元素的優化  247
9.4.5  一個完整UV分解演算法的構建  248
9.4.6  習題  250
9.5  NetFlix競賽  250
9.6  小結  251
9.7  參考文獻  253
索引  254