【大資料面試】【框架】Hadoop-入門、HDFS

阿新 • • 發佈：2021-12-09

一、入門

1、常用埠號

2.x

50070：檢視HDFS Web-UI

8088：檢視MapReduce執行情況

19888：歷史伺服器

9000：hdfs客戶端訪問叢集

50090等

3.x：

50070-->9870

9000-->8020

3、Hadoop的8個配置檔案

4個組成模組（common、hdfs、yarn、MapReduce）

common-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml

hadoop-env.sh yarn-env.sh mapred-env.sh slaves（不能有空行、不能有空格）

二、HDFS

1、HDFS的讀寫流程（筆試題）

Client-->NameNode-->DataNode

https://www.cnblogs.com/laowangc/p/8949850.html

2、HDFS的小檔案問題

1）小檔案過多會帶來哪些問題（會產生哪些影響）

NameNode記憶體：一個檔案塊佔用namenode的記憶體大小為150個位元組

（壓縮前：一億個小檔案，就是一億個*150個位元組）

（壓縮後：壓縮成一個檔案，即1*150位元組）

（壓縮方式：har歸檔到一個檔案內《用的比較多》、自定義InputFormat，把資料放置sequenceFile中取）

【128G的nameNode能儲存多少個檔案塊？==》128G/150位元組=128*1024*1024*1024（byte）/150≈9億】

影響分片==>影響Map Tsak的個數

（預設一個檔案一個切片）

（方式1：企業採用har歸檔，將小檔案歸檔，或自定義InputFormat，把資料放入sequenceFile內部）

（方式2：採用CombineInputFormat先對檔案聚合，聚合後再對檔案切片）

程序負載過高

解決：採用JVM重用

開始-執行任務-結束-開始-執行任務-結束==》開始-執行任務-執行任務-執行任務-執行任務-結束

如果沒有小檔案場景，就不要開啟小檔案，不然會鎖死執行緒

（配置檔案set JVM=true）

三、MapReduce

四、Yarn

本文來自部落格園，作者：劉金輝，轉載請註明原文連結：

https://www.cnblogs.com/liujinhui/p/15669399.html

【大資料面試】【框架】Hadoop-入門、HDFS

一、入門 1、常用埠號 2.x 50070：檢視HDFS Web-UI 8088：檢視MapReduce執行情況 19888：歷史伺服器

【大資料面試】【框架】Hive：架構、計算引擎、比較、內外部表、by、函式、優化、資料傾斜、動靜態分割槽

一、組成 1、架構源資料原本是存在dubby資料庫，存在MySQL可以支援多個客戶端

【大資料面試】sqoop：空值、資料一致性、列式儲存匯出、資料量、資料傾斜

一、有沒有遇到過問題，怎麼進行解決的 1、空值問題本質：hive底層儲存空資料使用\\n《==》MySQL儲存空資料使用null

【大資料面試】【專案】數倉架構

一、質疑分層不合理雲上大資料數倉解決方案：https://www.aliyun.com/solution/datavexpo/datawarehouse

【大資料面試】【數倉專案】其他知識點：行為數倉、業務數倉、拉鍊表、即席查詢

一、使用者行為數倉. 1、數倉分層架構圖要會畫 2、埋點行為資料基本格式(基本欄位)

【大資料】hive 分析 nginx 日誌

目錄1.nginx 日誌收集2.hive 建表載入資料3.分析資料4.資料視覺化 1.nginx 日誌收集

【大資料】Hadoop的偽分散式安裝

這幾天開始學習大資料，這離不開Hadoop這個Apache的經典專案。 Hadoop官網：https://hadoop.apache.org/

【大資料】Hadoop的全分散式安裝

準備叢集伺服器準備在虛擬機器中建立四個配置為1核，2G記憶體，20G儲存的虛擬機器。（在這裡有任何問題，請參考上篇博文——>傳送門）

【大資料】Hadoop的高可用叢集(HA)部署

這裡基於之前的博文，即在全分散式安裝的基礎上增量部署高可用叢集。叢集部署表如下：

【大資料】Hadoop的HDFS的API開發小實戰

在部署完了高可用的叢集的基礎上，開始對目前的叢集做一次小開發，練練手。

【大資料】MapReduce開發小實戰

Before：前提:hadoop叢集應部署完畢。一、實戰科目：做一個Map Reduce分散式開發，開發內容為統計檔案中的單詞出現次數。

【大資料Kafka之 high-level--Consumer 】

>>> 一、特點：不用關心offset, 會自動的讀zookeeper中該Consumer group的last offset

【大資料分析】Ch.5：潛在語義分析·LSA（Latent Semantic Analysis）

本章的內容是對自然語言的分析，並非單純數與字元的統計，而是嘗試去理解人類的語言描述概念。自然語言通常是指一種自然地隨文化演化的語言。例如，漢語、英語、日語為自然語言的例子，這一種用法可見於自然

2021最新發布：大資料開發工程師【完結】

技術標籤：talkingdatakylinsparkkafkaflink download：大資料開發工程師【完結】本套大資料課程中的技術體係包含目前主流的Hadoop、Spark、Flink三大技術生態圈，涵蓋了企業中最常見的技術元件，可以滿足大家

【大資料】那些簡化操作的輔助指令碼

技術標籤：大資料大資料hadoophivezookeeperkafka 【大資料】那些簡化操作的輔助指令碼

【大資料】Hadoop實驗報告

連結地址：【大資料】Hadoop實驗報告目錄實驗一熟悉常用的Linux操作和Hadoop操作1.實驗目的2.實驗平臺3.實驗內容和要求實驗二熟悉常用的HDFS操作1.實驗目的2.實驗平臺3.實驗步驟實驗三熟悉常用的HBase操作1.實驗

【大資料許可權分配】一、kerberos

一、kerberos概念金鑰分發中心，管理使用者身份資訊，進行身份認證。二、安裝

【大資料-課程】高途-天翼雲侯聖文-Day3-實時計算原理解析

〇、老師及課程介紹一、今日內容二、實時計算理論解析 1、什麼是實時計算微批處理、流式處理、實時計算

【大資料】RDD計算常見場景

一、目的本文主要用於記錄大資料學習過程中一些沉澱from pyspark import SparkContext,SparkConfspconf =SparkConf().setAppName(\"ji\").setMaster(\"local[*]\")sc = SparkContext(conf=spconf)#1.求平均數df = [1

【大資料】大資料相關的Troubshooting

問題1 pyspark的df.show() 報錯Method showString([class java.lang.Integer, class java.lang.Integer]) does not exist