大資料課程-------hadoop部分

阿新 • • 發佈：2021-10-27

1.namenode元資料管理：

2.linux shell指令碼日誌採集上傳到hdfs指令碼

https://www.cnblogs.com/biehongli/p/9010933.html

3.yarn 資源排程器

FIFO(先進先出)排程器

容量排程器（浪費資源）

公平排程器（動態分配）（最優）

4.hive 的桶表不能通過load載入資料，否則達不到桶的效果。

5.hive中的join(exists效能比較低，可以使用left semi join 替代)

6.hive中使用transform實現使用指令碼對資料進行處理

https://www.jianshu.com/p/4b7baa050738

7.https://blog.csdn.net/Post_Yuan/article/details/78845273

8.flume採集目錄中的檔案

【注意點】使用source spooldir採集目錄中檔案時，不能有同名的檔案，否則報錯

flume採集檔案中的日誌

攔截器：使用在source 和channel之間

時間戳攔截器，主機攔截器，靜態攔截器，正則過濾攔截器，自定義攔截器

flume的故障轉移failover(https://www.cnblogs.com/shay-zhangjin/p/7946282.html)

flume 負載均衡：load_balance（https://blog.csdn.net/weixin_42641909/article/details/88812785）

9.hbase列族越多，在取一行資料時所要參與IO,搜尋的檔案就越多，所以，如果沒有必要，不要設定太多的列族。

10.habase的讀寫過程：

布隆過濾器：

hbase的預分割槽：

hbase協處理器：【https://blog.csdn.net/moshang_3377/article/details/90723983】

大資料課程-------hadoop部分

1.namenode元資料管理： 2.linux shell指令碼日誌採集上傳到hdfs指令碼 https://www.cnblogs.com/biehongli/p/9010933.html

大資料課程-------linux部分

【1】linux命令（1）who查詢登入的使用者（2）last -n(-3)檢視最近的登陸歷史記錄

大資料課程-------java部分

1.執行緒同步 (https://www.cnblogs.com/dolphin0520/p/3923167.html) lock和synchronized的區別：(1)lock不是java語言內建的，synchronized是java語言的關鍵字，因此是內建特性。lock是一個類，通過這個類可以實現

【大資料】Hadoop的偽分散式安裝

這幾天開始學習大資料，這離不開Hadoop這個Apache的經典專案。 Hadoop官網：https://hadoop.apache.org/

【大資料】Hadoop的全分散式安裝

準備叢集伺服器準備在虛擬機器中建立四個配置為1核，2G記憶體，20G儲存的虛擬機器。（在這裡有任何問題，請參考上篇博文——>傳送門）

【大資料】Hadoop的高可用叢集(HA)部署

這裡基於之前的博文，即在全分散式安裝的基礎上增量部署高可用叢集。叢集部署表如下：

大資料與Hadoop

Day01 1. 大資料簡介 1.1 大資料的由來 1 隨著計算機技術的發展，網際網路的普及，資訊的積累已經到了一個非常龐大的地步，資訊的增長也在不斷的加快，隨著網際網路、物聯網建設的加快，資訊更是

【大資料】Hadoop的HDFS的API開發小實戰

在部署完了高可用的叢集的基礎上，開始對目前的叢集做一次小開發，練練手。

【大資料】Hadoop實驗報告

連結地址：【大資料】Hadoop實驗報告目錄實驗一熟悉常用的Linux操作和Hadoop操作1.實驗目的2.實驗平臺3.實驗內容和要求實驗二熟悉常用的HDFS操作1.實驗目的2.實驗平臺3.實驗步驟實驗三熟悉常用的HBase操作1.實驗

大資料與Hadoop先導知識

大資料簡述大資料概念概念大資料（big data），IT行業術語，是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量

大資料學習—Hadoop和Spark之間的關係

隨著網際網路的不斷髮展，大資料得到了了越來越多的關注，很多人都想往網際網路方向轉行，相信大家對Hadoop和Spark這兩個名字並不陌生，今天我們就來帶大家瞭解一下Hadoop和Spark之間的關係。

大資料入門-Hadoop基礎

大資料入門-Hadoop基礎 1 大資料背景 1-1 大資料4V特性資料量 Volume 多樣性，複雜性 Variety(結構化和非結構化資料) 基於高度分析的新價值 Value （價值密度的高低和資料總量是成反比的) 速度 Velocity

大資料配置hadoop筆記

1.修改主機名hostnamectl set-hostname masterbash 2.替換本地源pkill -9 yum //殺掉yum程序cd /etc/yum.repos.dcat bigdata.repo//檢視本地源rm -rf *//刪除wget http://172.19.47.240/bigdata/repofile/bigdata.r