【Hadoop學習】補充：優化、新特性

阿新 • • 發佈：2021-11-04

一、資料壓縮

1、概述

原則：IO密集而不是計算密集的job

壓縮演算法選擇

2、壓縮位置選擇

通過引數進行配置

3、壓縮例項：

資料流的壓縮和解壓縮

Map輸出端採用壓縮

Reduce輸出端採用壓縮

二、企業優化

1、概述

從六個方面考慮：資料輸入、Map階段、Reduce階段、IO傳輸、資料傾斜問題和常用的調優引數

資料輸入：合併小檔案、Combine格式輸入

Map階段：減少溢寫及合併次數

Reduce階段：合理設定Map、Reduce（規避使用），二者需要共存，合理設定reduce的buffer

IO傳輸：資料壓縮、使用sequence二進位制檔案

資料傾斜問題（大小傾斜/頻率傾斜）：抽樣、自定義分割槽、combine

調優引數：資源相關引數（mapred-default.xml）、yarn相關的引數（yarn-default.xml）、容錯相關引數

2、小檔案優化

三、Hadoop新特性

1、叢集間資料拷貝（scp、distcp遞迴複製）

2、小檔案存檔

啟動yarn，使用命令bin/hadoop archive歸檔和解歸檔

3、回收站

core-site.xml中配置fs.trash.interval

路徑/user/atguigu/.Trash/….

清空回收站：hadoop fs -expunge

4、多NN的HA和糾刪碼

執行多個備用NameNode

四、HA高可用

1、概述

HA（High Availablity）

雙NameNode消除單點故障

故障轉移機制

2、叢集配置

ZK叢集、HDFS叢集、YARN叢集、

3、HDFS Federation

單個NameNode的HDFS架構，因此整個HDFS檔案系統的吞吐量受限於單個NameNode的吞吐量，受到Namespace（名稱空間）的限制

【Hadoop學習】補充：優化、新特性

一、資料壓縮 1、概述原則：IO密集而不是計算密集的job 壓縮演算法選擇 2、壓縮位置選擇

【Hadoop學習】下：MapReduce程式編寫、Hadoop序列化、框架原理、Yarn元件、設定佇列

一、MapReduce概述 1、定義程式設計框架，組成分散式運算程式，執行在叢集上 2、特點

【專案學習】Timeswap：第一個完全去中心化的基於 AMM 的貨幣市場協議

總覽 Timeswap 是世界上第一個完全去中心化的基於 AMM 的貨幣市場協議，無需預言機或清算人即可工作。 Timeswap 採用 3 變數來維持 AMM 的運作。它通過允許使用者決定他們的風險狀況並相應地為每筆借貸交易設定利率

【極光筆記】iOS 15推送新特性初探

前言北京時間2021年6月8日凌晨1點，蘋果召開了WWDC21大會。在會上釋出了新版的iOS 15系統，iOS的主題是Focus, connect, and explore。

第十八章【高階篇】分散式快取Redis6.X新特性講解拓展

願景：\"讓程式設計不再難學，讓技術與生活更加有趣\" 更多架構課程請訪問 xdclass.net+vxdclass10諮詢更多課程

【大資料面試】【框架】Hive：架構、計算引擎、比較、內外部表、by、函式、優化、資料傾斜、動靜態分割槽

一、組成 1、架構源資料原本是存在dubby資料庫，存在MySQL可以支援多個客戶端

【Git學習】——安裝、建立版本庫

Git是一個開源的分散式版本控制系統，利用Git可以方便的管理我們的檔案。一、安裝

【Jmeter學習】JMeter關聯：JMeter正則表示式提取器與JSON提取器

JMeter使用正則表示式和JSON提取器實現關聯前言 1 關聯的釋義與示例 2 常用正則表示式詳解

【微控制器學習】第一課：課程介紹

【朱有鵬老師課程總結】第一部分、章節目錄 1.1.1.微控制器適合誰來學？ 1.1.2.咱們學什麼？ 1.1.3.我為什麼要學微控制器 1.1.4.為什麼要從51微控制器學起 1.1.5.咱們的開發板 1.1.6.學習本課程需要什麼

【深度學習】——優化器

技術標籤：Tensorflow神經網路深度學習python 神經網路引數優化器神經網路的訓練過程是通過迭代更新超引數來最小化損失函式的過程，最終目標是找到使損失函式最小，最能準確預測的超引數組合。而在更新迭代

【程式設計】C++：this指標的特性、this指標存在哪裡、this指標可以為空嗎

this指標的特性：編譯器處理成員函式隱含的this指標 void Display() { cout<<_year<<endl;

【機器學習】偏差和方差、訓練集&驗證集&測試集ex5

1 正則化線性迴歸這一部分，我們需要先對一個水庫的流出水量以及水庫水位進行正則化線性歸回。然後將會探討方差-偏差的問題

【整合學習】：Stacking原理以及Python程式碼實現

　　Stacking整合學習在各類機器學習競賽當中得到了廣泛的應用，尤其是在結構化的機器學習競賽當中表現非常好。今天我們就來介紹下stacking這個在機器學習模型融合當中的大殺器的原理。並在博文的後面附有相關程式碼

【十次方微服務後臺開發】Day01：環境、快取（吐槽）、ES搜尋文章、MQ註冊時傳送驗證碼

一、系統設計與工程搭建 1、需求分析程式設計師的專屬社交平臺，包括頭條、問答、活動、交友、吐槽、招聘

【機器學習】：Xgboost使用optuna進行除錯引數

程式碼如下： def objective(trial,data=data,target=target): train_x, test_x, train_y, test_y = train_test_split(data, target, test_size=0.15,random_state=42)

【機器學習】：決策樹之CART迴歸樹

在決策樹演算法當中，cart迴歸樹是決策樹的一種，它用來做迴歸的策略十分常見。可能還會在後續的GBDT模型當中所運用到，用來作為我們分裂節點的一個標準，我們來了解了解。

【機器學習】：Xgboost和GBDT的不同與比較

【與傳統GBDT相比，XGBoost有何不同】基函式不同。GBDT只用CART樹，XGBoost除了CART，也支援線性函式。

【機器學習】：特徵工程

我總結了以下特徵工程的一些方法，好的資料和特徵往往在資料探勘當中會給我們帶來更好的acc，尤其對於資料探勘而言。資料決定了預測準確度的上線，而模型的目的則是去儘量逼近這個上限。由此可見，對資料進行特徵工

【機器學習】：特徵篩選方法

一.基於統計值的篩選方法 1.過濾法：選擇特徵的時候，不管模型如何，首先統計計算該特徵和和label的一個相關性，自相關性，發散性等等統計指標。

【C語言筆記】一：uint8_t、uint16_t、uint32_t、uint64_t資料型別

uint8_t、uint16_t、uint32_t、uint64_t的來歷用處一.C語言基本資料型別： C語言共有6種基本資料型別

【Hadoop學習】補充：優化、新特性

相關推薦