hadoop：hdfs分佈儲存+ mr分佈計算

阿新 • • 發佈：2018-12-16

hdfs 和RDBMS區別
mr 和網格計算，志願計算

1，資料儲存

磁碟儲存	解決分散式問題	硬體需求	系統瓶頸
hdfs	磁碟陣列-叢集	硬體故障，多資料來源的資料準確性	普通機	資料傳輸：硬碟頻寬
RDBMS	單磁碟	專業伺服器	磁碟定址：大量資料更新

2，分析計算

適用場	特點	生態圈	結構特點	資料完整性	可擴充套件性	資料集結構化程度
mr	PB級資料：批處理	一寫多讀	yarn整合其他分散式程式,hive,saprk	讀模式	低	高	半、非結構化
RDBMS	GB級資料：實時檢索，更新	持續更新	寫模式	高	低	結構化

3，網格計算，志願計算

特點	適用場景
網格計算	分散節點計算+ 網路共享檔案系統	小規模資料：無網路傳輸瓶頸
網格計算	任務單元化+ 分散計算+ 校驗結果	cup密集型：計算時間>傳輸時間
mr	轉移計算+ 資料本地化	作業週期短（小時計）,高速區域網內，高配硬體

4，mr 對比linux:awk流處理

1，awk處理：年度最高溫度統計

在這裡插入圖片描述

2，mapreduce處理：每年最高溫度統計

idea +maven: 新增依賴

		<dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.3</version>
        </dependency>

map方法

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class Map1 extends Mapper<LongWritable, Text, IntWritable,IntWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //整理的資料輸入：
        //1982,-8
        //1931,-4
        String str = value.toString();
        String[] arr = str.split(",");
        int year=0, tmp=Integer.MIN_VALUE;

        //資料轉換
        try {
             year= Integer.parseInt(arr[0]);
             tmp= Integer.parseInt(arr[1]);
        }catch (Exception e){
            e.printStackTrace();
        }
        //輸出：新資料
        context.write(new IntWritable(year),new IntWritable(tmp));
    }
}

reduce方法

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
import java.util.Iterator;

public class Reduce1 extends Reducer<IntWritable,IntWritable,IntWritable,IntWritable> {
    @Override
    protected void reduce(IntWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //輸入資料：1931,【-4,23,4,35,6】
        //聚合資料： 求每組資料中的max(tmp)
        int max=Integer.MIN_VALUE;
        Iterator<IntWritable> it = values.iterator();
        while (it.hasNext()){
            IntWritable next = it.next();
            int tmp = next.get();

            max= (max >tmp) ? max:tmp;
        }
        //輸出： 最高溫度
        context.write(key, new IntWritable(max));
    }
}

app類：排程組織job

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class App1 {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJarByClass(App1.class);
        job.setJobName("maxTmp");

        //map,reduce
        job.setMapperClass(Map1.class);
        job.setReducerClass(Reduce1.class);

        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);

        job.setNumReduceTasks(3);
        //輸入輸出
        FileInputFormat.addInputPath(job,new Path("/home/wang/txt/tmp.txt"));
        FileOutputFormat.setOutputPath(job, new Path("/home/wang/tmp-out"));

        //提交等待
        job.waitForCompletion(true);
    }
}

hadoop：hdfs分佈儲存+ mr分佈計算

hdfs 和RDBMS區別 mr 和網格計算，志願計算 1，資料儲存磁碟儲存解決分散式問題硬體需求系統瓶頸 hdfs 磁碟陣列-叢集硬體故障，多資料來源的資料準確性普通機資料傳輸：硬碟頻寬 RDBMS 單磁碟專業伺服

Hadoop中HDFS的儲存機制

Hadoop中HDFS的儲存機制 HDFS（Hadoop Distributed File System）是Hadoop分散式計算中的資料儲存系統，是基於流資料模式訪問和處理超大檔案的需求而開發的。下面我們首先介紹HDFS中的一些基礎概念，然後介紹HDFS中讀寫操作的過程，最後分析了HDFS的

hadoop：hdfs架構及原理

HDFS簡介 HDFS:Hadoop Distributed File System(hadoop分散式檔案系統) 分散式，感覺好厲害的樣子啊，有網路檔案系統，有本地檔案系統，現在又多了一個分散式的檔案系統。之所以是要分散式，是資料要放到多個主機上面去。放的東西在叢集中，就

Hadoop：HDFS的特性

Hadoop培訓內容：HDFS的特性，HDFS和傳統的分散式檔案系統相比較，具有以下明顯的特性：高度容錯，可擴充套件性及可配置性強。由於容錯性高，因此非常適合部署利用通用的硬體平臺構建容錯性很高的分散式系統。容易擴充套件是指擴充套件無須改變架構只需要增加節點即可，同時

Hadoop學習筆記—2.不怕故障的海量儲存：HDFS基礎入門

一.HDFS出現的背景　　隨著社會的進步，需要處理資料量越來越多，在一個作業系統管轄的範圍存不下了，那麼就分配到更多的作業系統管理的磁碟中，但是卻不方便管理和維護—>因此，迫切需要一種系統來管理多臺機器上的檔案，於是就產生了分散式檔案管理系統，英文名成為DFS（Distributed File Sy

個人hadoop學習總結：Hadoop叢集+HBase叢集+Zookeeper叢集+chukwa監控（包括單機、偽分佈、完全分佈安裝操作）

環境介紹：虛擬機器四個： hadoop-marster hadoop-salve1 hadoop-salve2 hadoop-salve3 ===========================1.Hadoop==============================

Apache hadoop叢集安裝的三種方式：本地、偽分佈、完全分佈

四 Hadoop執行模式1）官方網址（1）官方網站：（2）各個版本歸檔庫地址（3）hadoop2.7.2版本詳情介紹2）Hadoop執行模式（1）本地模式（預設模式）：不需要啟用單獨程序，直接可以執行，測試和開發時使用。（2）偽分散式模式：等同於完全分散式，只有一個節點。（

hadoop學習筆記（三）：hdfs體系結構和讀寫流程（轉）

sim 百萬服務器發表繼續什麽 lose 基於一次原文：https://www.cnblogs.com/codeOfLife/p/5375120.html 目錄 HDFS 是做什麽的 HDFS 從何而來為什麽選擇 HDFS 存儲數據 HDFS

機器學習：Multinoulli分佈與多項式分佈

學習深度學習時遇見multinoulli分佈，在此總結一下機器學習中常用的multinoulli分佈與多項式分佈之間的區別於關係，以便更好的理解其在機器學習和深度學習中的使用。首先介紹一下其他相關知識。 Bernoulli分佈（兩點分佈） Bernoulli分佈是單個二值隨機變數

Atitit 重大問題解決法---記不住問題的解決目錄 1. 記不住的原因 1 2. 大腦儲存內容分佈 2 2.1. Jvm的儲存機制 2 2.2. 人的儲存機制 2 2.2.1. 圖片區視覺區

Atitit 重大問題解決法---記不住問題的解決目錄 1. 記不住的原因 1 2. 大腦儲存內容分佈 2 2.1. Jvm的儲存機制 2 2.2. 人的儲存機制 2 2.2.1. 圖片區視覺區大部分可能達到80%--

配置Hadoop 單機，偽分佈，完全分佈

在這裡我推薦一本書給大家，在這本書中關於hadoop的各種配置，解釋的都很詳細，話不多說，看連結：連結：大資料spark企業級實戰提取碼：tqpk 書中第二章，詳細的講解了Hadoop和spark的配置雖然有點老但是還是很有效的；另外推薦一個博主的配置方法：

理解：L1正則先驗分佈是Laplace分佈，L2正則先驗分佈是Gaussian分佈

轉自：https://blog.csdn.net/m0_38045485/article/details/82147817 L1、L2正則化來源推導 L1L2的推導可以從兩個角度：帶約束條件的優化求解（拉格朗日乘子法）貝葉斯學派的：最大後驗概率 1.1 基於約束條件的最優化對於模型權重

三大抽樣分佈：卡方分佈，t分佈和F分佈的簡單理解

有很多統計推斷是基於正態分佈的假設，以標準正態分佈變數為基石而構造的三個著名統計量在實際中有廣泛的應用，這是因為這三個統計量不僅有明確背景，而且其抽樣分佈的密度函式有顯式表示式，它們被稱為統計中的“三大抽樣分佈”。這三大抽樣分佈即為著名的卡方分佈，t分佈和F分佈。目錄

《Hadoop技術內幕：深入解析Hadoop和HDFS》2.1配置檔案簡介

2.1　配置檔案簡介配置檔案是一個靈活系統不可缺少的一部分，雖然配置檔案非常重要，但卻沒有標準。本節我們來了解 Windows 作業系統和 Java 環境中的配置檔案。 2.1.1　Windows 作業系統的配置檔案 Windows 系統廣泛使用一種特殊化的 AS

排隊論中的常見分佈：泊松分佈、指數分佈與愛爾朗分佈

1.概率函式 ①泊松分佈： λ表示單位時間（面積或體積等）該事件平均發生次數（到達率）則p(x=k)表示單位時間（面積或體積等）該事件發生k次的概率。數字特徵：易知，根據定義期望為λ，也能求出方差也為λ。則p(N(t)=k)表示t時

Hadoop：HA HDFS core-site.xml和hdfs-site.xml配置

core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property>

seaborn繪圖：seaborn.displot檢視變數分佈

版本：Jupyter NoteBook 5.5.0 python 3.6.5 例子： fig, axes = plt.subplots(nrows = 19, ncols = 2, figsize = (40, 200)) for ax, column in zip(axe

HADOOP學習筆記總結一：HDFS

一、Hadoop的來源二、hadoop的子專案三、Hadoop的安裝與版本 Hadoop 的有三條線並行演化，各個版本的功能是不一樣的。所以2.7並不一定比0.23的要新。比如說，0.23這個版本增加了使用者認證的功能，但其他的版本確沒有此功能。

Atitit 重大問題解決法---記不住問題的解決目錄 1. 記不住的原因 1 2. 大腦儲存內容分佈 2 2.1. Jvm的儲存機制 2 2.2. 人的儲存機制 2 2.2.1. 圖片區視覺區

Atitit 重大問題解決法---記不住問題的解決目錄記不住的原因記不住的核心就是人腦儲存不足或處理資訊頻率不足短期內資訊過載過大，處理能力相對不足導致

linux 安裝hadoop 的四大執行模式——完全分佈模式（版本2.9.1）

hadoop完全分散式模式：hadoop的守護執行緒在不同的伺服器上（具體定義請自行查詢）本機部署：實在前一篇文章偽分散式部署下進行操作的：偽分佈部署連結：https://blog.csdn.net/weixin_39435629/article/details/84841252 前

hadoop：hdfs分佈儲存+ mr分佈計算

1，資料儲存

2，分析計算

3，網格計算，志願計算

4，mr 對比linux:awk流處理

1，awk處理： 年度最高溫度統計

2，mapreduce處理：每年最高溫度統計

相關推薦

1，awk處理：年度最高溫度統計