十小時入門大資料學習筆記（二）

阿新 • • 發佈：2019-02-06

第二章 初識Hadoop

2.1Hadoop概述

名稱由來：專案作者的孩子對黃色大象玩具的命名

開源、分散式儲存與分散式計算的平臺

Hadoop能做什麼：

1. 搭建大型資料倉庫，PB級資料的儲存、處理、分析、統計等業務

2. 搜尋引擎、日誌分析、資料探勘、商業智慧

2.2Hadoop核心元件

HDFS（分散式檔案系統）

1. 源於Google在2003年10月發表的GFS論文

2. 對GFS的克隆

3. 特點：擴充套件性、容錯性、海量資料儲存

4. 將檔案切分成指定大小的資料塊並且多副本存於多個機器上

5. 資料切分、多副本、容錯對使用者是透明的

YARN（資源管理系統）

1. 整個叢集資源的管理與排程

2. 特點：擴充套件性、容錯性、多框架資源統一排程

MapReduce（分散式計算框架）

1. 2004年12月的GoogleMapReduce論文

2. Google MapReduce的克隆版

3. 特點：擴充套件性、容錯性、海量資料的離線處理

2.3Hadoop優勢

Hadoop優勢之高擴充套件性

1. 儲存/計算資源不夠可以橫向線性的擴充套件機器

2. 一個叢集可以包含數以千計、萬計的節點

Hadoop其他優勢

1. 儲存在低廉機器上、成本低廉

2. 成熟的生態圈

2.4Hadoop發展史

《Hadoop十年解讀與發展預測》

狹義的Hadoop：適合於大資料的分散式儲存（HDFS）、分散式計算（MapReduce）和資源排程（YARN）的平臺。

廣義的Hadoop：

Hadoop生態系統，龐大的概念，hadoop是其中最重要最基礎的一部分；生態系統中的每一個子系統針對特定的問題域（甚至可能更窄）；不搞統一型的全能系統，而是小而精的多個小系統。

2.5Hadoop的生態系統

生態系統特點：

1. 開源、社群活躍

2. 囊括了大資料處理的方方面面

2.6Hadoop發行版的選擇

1. Apache Hadoop

2. CDH（Cloudera Distributed Hadoop）

3.HDP（Hortonworks Data Platform）

2.7企業中的應用案例

1. 消費大資料

2. 商品零售大資料

十小時入門大資料學習筆記（二）

第二章初識Hadoop2.1Hadoop概述名稱由來：專案作者的孩子對黃色大象玩具的命名開源、分散式儲存與分散式計算的平臺Hadoop能做什麼：1. 搭建大型資料倉庫，PB級資料的儲存、處理、分析、統計等業務2. 搜尋引擎、日誌分析、資料探勘、商業智慧2.2Hadoop核心

大資料學習筆記（六）-Spark環境配置

Spark配置： spark-env配置： export SPARK_MASTER_IP=hadoop000 slaves配置： hadoop000 調整Spark-shell的日誌輸出級別： conf/log4j.propert

從五篇paper入門大資料與Hadoop（二）：GFS

一.GFS設計概覽 1.1目標預想 • 架設在多臺便宜的的裝置而不是大型伺服器上，因此要強調容錯性 • 相容large streaming read和small random reads • 主要支

大資料學習筆記（十四）-- hadoop

Table of Contents HDFS 儲存模型架構模型副本佈置總結 Hadoop簡介 HDFS 儲存模型解釋：已上傳的Block大小不可改變的原因是每個Block大小一致，改變一個其他也會跟著改變

大資料學習筆記（十六）-Hue的安裝部署和使用

sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel mak

大資料Hadoop學習筆記（二）

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

大資料學習筆記（Map Reduce在叢集上的執行架構）

MR1.X執行架構 JobTracter 核心，主，單點排程所有的作業監控整個叢集的資源負載 TaskTracter 從，自身節點資源管理和JobTracter心跳，彙報資源，獲取Task Client 作業為單位最終提交作業到JobTracker

大資料基礎知識學習-----Hive學習筆記（二）Hive安裝環境準備

Hive安裝環境準備 Hive安裝地址 Hive安裝部署 Hive安裝及配置把apache-hive-1.2.1-bin.tar.gz上傳到linux的/opt/software目錄下解壓apache-hive-1.2.

最大熵學習筆記（一）預備知識

color wrap targe dsm entropy plus 文件 eight 相關鏈接生活中我們常常聽到人們說“不要把雞蛋放到一個籃子裏”。這樣能夠減少風險。深究一下，這是為什麽呢？事實上，這裏邊包括了所謂的最大熵原理（The Maxim

ADO.NET入門學習筆記（二）

pre ID ssa private 更新 clear event and form gridView再winform中顯示數據庫的數據。 SqlDataAdapter, DataSet, DataTable的簡單應用 1，安裝學習筆記一的那幾步打開數據庫，然後使用。

Golang學習筆記（二）資料型別

Go的資料型別與Java等語言的資料型別幾乎一致 //byte其實就是uint8的別名 var aaa byte = 100 // rune其實就是int32的別名 var bbb rune = 200 //可以給一個字元，計算ascll碼 var ddd byte = 'a' var c

Java中未給定初始值的基礎資料型別為什麼不能輸出　——Thinking in Java學習筆記（二）

在java程式設計思想第二章節中有這麼一個練習題：定義一個類，給定兩個無初始值的int和char型別的數值，輸出兩個數的值，驗證int和char的初始值。我第一次是這麼做的： public static void main(String[] args) { int i; char

python入門學習筆記（二）——列表

3.列表 3.1使用列表的值 name = ['dad','sss','ff'] print(name) print(name[0]) print(name[-1].upper()) 3.2修改列表值 name[-1] = 'aa' print(name) 3

大資料學習路線（轉載）

學習路線文章哎，都是淚！！！一、大資料技術基礎 1、linux操作基礎 linux系統簡介與安裝 linux常用命令–檔案操作 linux常用命令–使用者管理與許可權 linux常用命令–系統管理 linux常用命令–免密登陸配置與網路管理 linux上常用軟體安裝 linux本地yum源配置及yum

微信小程式入門學習筆記（二）——阿里雲伺服器PHP MYSQL Apache配置

持續更新持續學習感謝原文大佬連結 https://www.linuxidc.com/Linux/2017-08/146220.htm 筆者在阿里雲上買了輕量應用伺服器學生認證通過以下便宜的選擇的CentOS 7.3 64位 https://promot

SQL入門經典(第5版)學習筆記（二）

1．判斷對錯：個人社會保險號碼，輸入格式為 '1111111111'，它可以是下面任何一種資料型別：定長字元、變長字元、數值。錯不能是數值引號會轉換為字元 2．判斷對錯：數值型別的標度是指數值的總體長度。對會自動補全 3．所有的SQL實現都使用同樣的資料型別嗎？不同按需使用 4．下面定義的有效位

Web 前端開發入門級學習筆記（二）

9.盒子模型：它講了這樣一個事實：在HTML裡，在瀏覽器渲染頁面時，所有的元素都是要佔據一定空間的，而且這個空間一定是一個矩形的。在我們的瀏覽器中絕對不出現佔據圓形、不規則圖形這樣空間的元素存在。簡單的來說，我們可以把頁面上的所有元素都當做

學習筆記（二）tidyverse之readxl包------表格資料讀取

1、readxl概況 readxl包是tidyverse中的一員，是匯入Excel表格資料的一個R包，由Hadley Wickham開發的。與其他已經存在的包（例如：gdata包、xlsx包…）最大的區別是不依賴其他外部程式，能夠在所有作業系統中都方便使用; 主要功能是匯入

C++學習筆記（二）：開啟檔案、讀取資料、資料定位與資料寫入

1.開啟二進位制檔案（fopen）、讀取資料（fread），應用示例如下： FILE *fp = fopen("data.yuv", "rb+"); //開啟當前目錄中的data.yuv檔案 char *buffer = ( char*) malloc (sizeof(char)*FrameSi

docker入門學習筆記（二）

1、開始執行docker命令時，提示 “docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?. See 'docke

十小時入門大資料學習筆記（二）

相關推薦