我的新書《Hadoop+Spark生態系統操作與實戰指南》已經上架
趕在兒子1歲生日之際,趕在我30歲告別之際,我撰寫《Hadoop+Spark生態系統操作與實戰指南》一書,作為我兒子的生日禮物。我借【時光之手】合上我30年青春的最後一頁,我借【此書】記錄下我的青春,我借【清華大學出版社】將我青春永遠留在【清華大學】。
我的新書《Hadoop+Spark生態系統操作與實戰指南》,清華大學出版社,已經在京東、天貓、噹噹、亞馬遜、新華書店全面上架。
本書由:清華大學教授、中科院教授、百人計劃研究員、傳智播客副總裁、搜狐視訊技術總監、Oracle高階講師【聯袂推薦】
本書目錄
第1章 Hadoop概述 1
1.1 Hadoop簡介 1
1.2 Hadoop版本和生態系統 3
1.3 MapReduce簡介 7
1.4 HDFS簡介 8
1.5 Eclipse+Java開發環境搭建 10
1.5.1 Java安裝 10
1.5.2 Maven安裝 11
1.5.3 Eclipse安裝和配置 12
1.5.4 Eclipse建立Maven專案 16
1.5.5 Eclipse其餘配置 19
1.6 小結 21
第2章 Hadoop叢集搭建 22
2.1 虛擬機器簡介 22
2.2 虛擬機器配置 24
2.3 Linux系統設定 31
2.4 Apache版本Hadoop叢集搭建 36
2.5 CDH版本Hadoop叢集搭建 44
2.5.1 安裝前期準備 44
2.5.2 Cloudera Manager安裝 45
2.5.3 CDH安裝 46
2.6 小結 55
第3章 Hadoop基礎與原理 56
3.1 MapReduce原理介紹 56
3.1.1 MapReduce的框架介紹 56
3.1.2 MapReduce的執行步驟 58
3.2 HDFS原理介紹 59
3.2.1 HDFS是什麼 59
3.2.2 HDFS架構介紹 59
3.3 HDFS實戰 62
3.3.1 HDFS客戶端的操作 62
3.3.2 Java操作HDFS 65
3.4 YARN原理介紹 69
3.5 小結 71
第4章 ZooKeeper實戰 72
4.1 ZooKeeper原理介紹 72
4.1.1 ZooKeeper基本概念 72
4.1.2 ZooKeeper工作原理 73
4.1.3 ZooKeeper工作流程 76
4.2 ZooKeeper安裝 78
4.3 ZooKeeper實戰 80
4.3.1 ZooKeeper客戶端的操作 80
4.3.2 Java操作ZooKeeper 81
4.3.3 Scala操作ZooKeeper 85
4.4 小結 87
第5章 MapReduce實戰 88
5.1 前期準備 88
5.2 檢視YARN上的任務 95
5.3 載入配置檔案 95
5.4 MapReduce實戰 96
5.5 小結 121
第6章 HBase實戰 122
6.1 HBase簡介及架構 122
6.2 HBase安裝 127
6.3 HBase實戰 129
6.3.1 HBase客戶端的操作 129
6.3.2 Java操作HBase 132
6.3.3 Scala操作HBase 136
6.4 小結 140
第7章 Hive實戰 141
7.1 Hive介紹和架構 141
7.2 Hive資料型別和表結構 143
7.3 Hive分割槽、桶與傾斜 144
7.4 Hive安裝 146
7.5 Hive實戰 148
7.5.1 Hive客戶端的操作 148
7.5.2 Hive常用命令 154
7.5.3 Java操作Hive 155
7.6 小結 161
第8章 Scala實戰 162
8.1 Scala簡介與安裝 162
8.2 IntelliJ IDEA開發環境搭建 164
8.2.1 IntelliJ IDEA簡介 164
8.2.2 IntelliJ IDEA安裝 164
8.2.3 軟體配置 166
8.3 IntelliJ IDEA建立Maven專案 171
8.4 基礎語法 176
8.5 函式 179
8.6 控制語句 181
8.7 函數語言程式設計 184
8.8 模式匹配 189
8.9 類和物件 191
8.10 Scala 異常處理 194
8.11 Trait(特徵) 195
8.12 Scala檔案I/O 196
8.13 作業 198
8.13.1 九九乘法表 198
8.13.2 氣泡排序 199
8.13.3 設計模式Command 200
8.13.4 集合對稱判斷 202
8.13.5 綜合題 204
8.14 小結 206
第9章 Flume實戰 207
9.1 Flume概述 207
9.2 Flume的結構 208
9.3 Flume安裝 211
9.4 Flume實戰 212
9.5 小結 214
第10章 Kafka實戰 215
10.1 Kafka概述 215
10.1.1 簡介 215
10.1.2 使用場景 217
10.2 Kafka設計原理 218
10.3 Kafka主要配置 222
10.4 Kafka客戶端操作 224
10.5 Java操作Kafka 226
10.5.1 生產者 226
10.5.2 消費者 228
10.6 Flume連線Kafka 229
10.7 小結 233
第11章 Spark實戰 234
11.1 Spark概述 234
11.2 Spark基本概念 234
11.3 Spark運算元實戰及功能描述 238
11.3.1 Value型Transformation運算元 238
11.3.2 Key-Value型Transformation運算元 242
11.3.3 Actions運算元 245
11.4 Spark Streaming實戰 248
11.5 Spark SQL和DataFrame實戰 253
11.6 小結 266
第12章 大資料網站日誌分析專案 267
12.1 專案介紹 267
12.2 網站離線專案 267
12.2.1 業務框架圖 267
12.2.2 子服務“趨勢分析”詳解 268
12.2.3 表格的設計 272
12.2.4 提前準備 274
12.2.5 專案步驟 287
12.3 網站實時專案 297
12.3.1 業務框架圖 297
12.3.2 子服務“當前線上”詳解 297
12.3.3 表格的設計 302
12.3.4 提前準備 304
12.3.5 專案步驟 327
12.4 小結 337