【回顧】一、Hadoop常用的基礎知識點

阿新 • • 發佈：2021-11-02

一、埠號

hdfs：50070

mr：8088

歷史伺服器：19888

二、配置檔案

core-site、yarn-site、mapred-site、hdfs-site、slave

ssh免密登入，配置核心檔案，namenode格式化

三、hdfs讀寫流程

讀資料：hdfs-client向namenode請求讀取資料，namenode返回該目標檔案的元資料，hdfs-client通過fsdataInpute向datanode讀取資料，datanode傳輸資料給客戶端。

寫資料：本地有個檔案塊，hdfs-client通過分散式檔案系統請求上傳一個檔案路徑，namenode判斷是否可以上傳，響應可以上傳的話，並給出儲存datanode的節點，hdfs-client向datanode請求建立block傳輸通道，datanode應答成功，傳輸packet到bytebuffer。

四、小檔案問題

影響：佔據namenode記憶體空間，每個檔案開啟一個maptask，佔據計算資源。namenode記憶體預設2000M

解決：歸檔har；採用combineTextInputeFormat；jvm重用

糾刪碼原理：cpu資源換儲存空間；

異構儲存，冷熱資料分離

五、shuffer過程

分map、reduce過程。

map有環形緩衝區，歸併，排序，合併，壓縮，寫磁碟

reduce階段,拉取map分割槽的結果資料到記憶體，歸併排序，按key分組

六、yarn工作機制

圖解

七、yarn排程器

fifo：單佇列，先進先出

容量排程器：多佇列，使用效率低的佇列，按任務提交的時間，優先順序

公平排程器：多佇列，每個任務呼叫資源都是一樣的

【回顧】一、Hadoop常用的基礎知識點

一、埠號 hdfs：50070 mr：8088 歷史伺服器：19888 二、配置檔案 core-site、yarn-site、mapred-site、hdfs-site、slave

【Django】一、Django技巧

技術標籤：DjangoDjango技巧 Django技巧一、Django自定義變數初始化1、自定義初始化【lower】2、藉助APP初始化

【MapReduce】六、Hadoop企業優化

文章目錄一、MapReduce 跑的慢的原因二、MapReduce優化方法三、HDFS小檔案優化方法

【全】一、CSS動畫大全之按鈕【a】

普通按鈕懸浮效果效果預覽程式碼 <!DOCTYPE html> <html> <head> <meta charset=\"utf-8\" />

【FlinkSql】一、基本瞭解

一、FlinkSQL 動態表，流表二象性。所謂動態表，就是資料會隨著時間變化的表，可以想象成就是資料庫中一張被不斷更新的表。

【FlinkCEP】一、基本瞭解

一、cep的來源　　事件流上進行高效地模式匹配的兩個挑戰：　　要求豐富的語言特性：在事件流上進行模式匹配的語言明顯要比用正則表示式進行模式匹配的語言所需要的能力豐富得多。這些事件模式語言需要包含對錶達

【基礎題】【陣列】前進、後退一步

技術標籤：# C++題解 1.輸入10個元素，將陣列每個元素位置整體前進一步、原先第一個元素放到最後一個位置

【SpringBoot-In-Action】一、Spring Boot快速入門

本系列教程根據本人實際學習使用 SpringBoot2.x 過程總結整理而來。 1、Spring Boot 簡介

【《你不知道的JS（中卷②）》】一、非同步：現在與未來

一、非同步：現在與未來：如何表達和控制持續一段時間的程式行為，是使用類似JS這樣的語言程式設計時，很重要但常常被誤解的一點。

【開源專案】一、最美的Vue+Element開源後臺管理UI

作者：EuiAdmin 原文：http://suo.im/5AkUrQ 前言： EuiAdmin是基於Vue+Element等元件聯合開發的一個免費的開源後臺，你可以通過（euiadmin.com）進行下載和體驗，此後臺免費開源，你可以直接可以免費使用

【Python爬蟲筆記】一、驗證碼識別

技術標籤：【Python】一、OCR技術 OCR（Optical Character Recognition，光學字元識別）是指電子裝置（例如掃描器或數碼相機）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀

【spring原始碼分析】一、BeanPostProcessor

在spring-beans中org.springframework.beans.factory.config.BeanPostProcessor BeanPostProcessor也稱為Bean後置處理器，它是Spring中定義的介面，在Spring容器的建立過程中（具體為Bean初始化前後）會回撥BeanPost