1. 程式人生 > 其它 >大資料課程-------hadoop部分

大資料課程-------hadoop部分

1.namenode元資料管理:

2.linux shell指令碼日誌採集上傳到hdfs指令碼

https://www.cnblogs.com/biehongli/p/9010933.html

3.yarn 資源排程器

FIFO(先進先出)排程器

容量排程器(浪費資源)

公平排程器(動態分配)(最優)

4.hive 的桶表不能通過load載入資料,否則達不到桶的效果。

5.hive中的join(exists效能比較低,可以使用left semi join 替代)

6.hive中使用transform實現使用指令碼對資料進行處理

https://www.jianshu.com/p/4b7baa050738

7.https://blog.csdn.net/Post_Yuan/article/details/78845273

8.flume採集目錄中的檔案

【注意點】使用source spooldir採集目錄中檔案時,不能有同名的檔案,否則報錯

flume採集檔案中的日誌

攔截器:使用在source 和channel之間

時間戳攔截器,主機攔截器,靜態攔截器,正則過濾攔截器,自定義攔截器

flume的故障轉移failover(https://www.cnblogs.com/shay-zhangjin/p/7946282.html)

flume 負載均衡:load_balance(https://blog.csdn.net/weixin_42641909/article/details/88812785)

9.hbase列族越多,在取一行資料時所要參與IO,搜尋的檔案就越多,所以,如果沒有必要,不要設定太多的列族。

10.habase的讀寫過程:

布隆過濾器:

hbase的預分割槽:

hbase協處理器:【https://blog.csdn.net/moshang_3377/article/details/90723983】