大資料課程-------hadoop部分
1.namenode元資料管理:
2.linux shell指令碼日誌採集上傳到hdfs指令碼
https://www.cnblogs.com/biehongli/p/9010933.html
3.yarn 資源排程器
FIFO(先進先出)排程器
容量排程器(浪費資源)
公平排程器(動態分配)(最優)
4.hive 的桶表不能通過load載入資料,否則達不到桶的效果。
5.hive中的join(exists效能比較低,可以使用left semi join 替代)
6.hive中使用transform實現使用指令碼對資料進行處理
https://www.jianshu.com/p/4b7baa050738
7.https://blog.csdn.net/Post_Yuan/article/details/78845273
8.flume採集目錄中的檔案
【注意點】使用source spooldir採集目錄中檔案時,不能有同名的檔案,否則報錯
flume採集檔案中的日誌
攔截器:使用在source 和channel之間
時間戳攔截器,主機攔截器,靜態攔截器,正則過濾攔截器,自定義攔截器
flume的故障轉移failover(https://www.cnblogs.com/shay-zhangjin/p/7946282.html)
flume 負載均衡:load_balance(https://blog.csdn.net/weixin_42641909/article/details/88812785)
9.hbase列族越多,在取一行資料時所要參與IO,搜尋的檔案就越多,所以,如果沒有必要,不要設定太多的列族。
10.habase的讀寫過程:
布隆過濾器:
hbase的預分割槽:
hbase協處理器:【https://blog.csdn.net/moshang_3377/article/details/90723983】