1. 程式人生 > >《Hadoop生態系統》(O'REILLY )(一)

《Hadoop生態系統》(O'REILLY )(一)

這是讀書筆記。
最近準備把基礎重新學一遍,再往大資料方向走。
正好有些書買了還沒看,這本書講的是
Hadoop的生態圈
是一本概要類的書籍,16年11月的,正好我也有個簡單瞭解。

第一章 關鍵技術

這一章講的是當時的Hadoop的關鍵性的技術,都是完全整合的,其中包括分散式檔案系統HDFS、處理大資料的程式設計正規化MapReduce、資料處理的YARN、資料處理/儲存的Spark
我聽得比較多的就是前面2個和最後一個,第三個不太熟,正好在這裡大致說下每個部分作用和區別

1.1 HDFS

用途介紹的是:大容量、容錯性、可儲存非常大的資料集的廉價儲存
我的理解:超大儲存,資料是所有操作的基礎,這個技術就是基礎中的基礎技術
我的感覺:一眼就看到了,廉價,那肯定是必須掌握了。

1.2 MapReduce

用途介紹的是:一種處理大資料的程式設計正規化
我的理解:程式設計正規化?那不就是標準規範嗎。。。我看介紹還有很多,大致是告訴你一個數據的處理流程。MapReduce分為mapper和reduce兩個java程式,mapper負責把資料放進map裡面,然後reducer將map裡的資料進行分類彙總。
我的感覺:很複雜,我查了下教程也有,應該是基礎技能,畢竟是對資料進行操作的。

1.3 YARN

用途介紹的是:資料處理
我的理解:官方定義,YARN更像一個橋,讓其他的模組或者技術可以在Hadoop上執行,更像是個遮蔽異構性的中介軟體?
我的感覺:這個應該挺重要的?

1.4 Spark

用途介紹的是:資料處理/儲存
我的理解:這是彌補MapReduce在一些領域的空白,介紹說是MapReduce的完全替代品
我的感覺:這個應該也是分應用場景的,應該也挺重要的。

第一章就是這些內容,大致知道了Hadoop的幾個關鍵技術。第二章是講資料庫及資料管理。

相關推薦

Hadoop生態系統O'REILLY

這是讀書筆記。 最近準備把基礎重新學一遍,再往大資料方向走。 正好有些書買了還沒看,這本書講的是 Hadoop的生態圈 是一本概要類的書籍,16年11月的,正好我也有個簡單瞭解。 第一章 關鍵技術 這一章講的是當時的Hadoop的關鍵性的技術,都是完全整合的,其

Hadoop生態系統O'REILLY

第一章,關鍵技術 第二章,資料相關的操作,儲存、管理 第三章 序列化 序列化就是為了將資料更好方便的進行移動,畢竟資料可能有很多方面,很多點,如果一直是保持格式傳遞資料,可能會浪費大量資源,所以這裡就序列化,把他變成一串更好傳遞的資訊,傳送到頭再進行反序列化,把

大資料之4Hadoop生態系統體系架構及基本概念

一、基本概念 機架:HDFS叢集,由分佈在多個機架上的大量DataNode組成,不同機架之間節點通過交換機通訊,HDFS通過機架感知策略,使NameNode能夠確定每個DataNode所屬的機架ID,使用副本存放策略,來改進資料的可靠性、可用性和網路頻寬的利用率。 資料塊(blo

大資料之4Hadoop生態系統體系架構彙總

一、基本概念 機架:HDFS叢集,由分佈在多個機架上的大量DataNode組成,不同機架之間節點通過交換機通訊,HDFS通過機架感知策略,使NameNode能夠確定每個DataNode所屬的機架ID,使用副本存放策略,來改進資料的可靠性、可用性和網路頻寬的利用率

hadoop生態系統學習之路hbase的簡單使用

最近,參與了公司的一個大資料介面平臺的開發,具體的處理過程是這樣的。我們公司負責資料的入庫,也就是一個etl過程,使用MR將資料入到hive裡面,然後同步到impala,然後此介面平臺提供查詢介面,前臺會將sql語句以引數傳過來,然後介面平臺通過呼叫impala

基於hadoop生態系統的mahout推薦和聚類分析1

簡介 hadoop是Apache旗下的一個開源分散式計算平臺,在分散式環境下為使用者提供處理海量資料的能力。 mahout是hadoop下的一個子專案,主要用於推薦、分類和聚類分析 一、推薦 關於推薦的演算法有很多,本次主要介紹協同過濾演算法。 (1)基於使用者的協

hadoop生態系統學習之路十二cloudera manager的簡單使用

最近,忙著辭職和考駕照的事,都沒時間寫部落格了,差點把大資料相關的一些技術都給忘了。不過還好做好歸納整理,能夠快速的恢復起來。其實,筆者發現,學習大資料還是有點小竅門的。首先,最好能有個人指引,有什麼問題都可以問他,因為我僅僅只看視訊、資料等,很難挖掘裡面有價值

hadoop生態系統學習之路hive的簡單使用

一、hive的基本概念與原理 Hive是基於Hadoop之上的資料倉庫,可以儲存、查詢和分析儲存在 Hadoop 中的大規模資料。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的使用者查詢資料,允許熟悉 MapReduce 開發

hadoop生態系統學習之路java實現上傳檔案本地或ftp至hdfs

在上一篇博文中,我們講了如何編寫、執行、測試一個MR,但是hdfs上的檔案是手動執行命令從本地linux上傳至hdfs的。在真實的執行環境中,我們不可能每次手動執行命令上傳的,這樣太過繁瑣。那麼,我們可以使用hdfs提供的java api實現檔案上傳至hdfs,

Hadoop生態圈-phoenix的視圖view管理

oop 視圖 聲明 版權 作品 管理 原創 view 創作                       Hadoop生態圈-phoenix的視圖(view)管理                                                作者:尹正傑 版權

來自出版商的免費電子書集合 O'Reilly/Packt/Manning/Apress/微軟

在以前的文章 推薦:Syncfusion Succinctly 系列免費電子書(https://

比較Apache Hadoop生態系統中不同的文件格式和存儲引擎的性能

報告 indent 然而 microsoft 要花 ont 目錄 總結 千兆 這篇文章提出了在Apache Hadoop生態系統中對比一些當前流行的數據格式和可用的存儲引擎的性能:Apache Avro,Apache Parquet,Apache HBase和Apache

原生hadoop生態系統組件安裝文檔

eventlog park log4 thrift ado his borde 使用 static CDP組件部署文檔 0000—安裝包的下載 1— 操作系統centos7 (版本7.2.x) (1)下載地址 https://www.centos.org/download

初入Hadoop生態系統

前言 說起Hadoop,知道它是一個開源的、可運行於大規模叢集上的分散式計算平臺,實現了MapReduce計算模型和分散式檔案系統HDFS等功能;但對Hadoop整個的生態不夠了解,本著愛學習的態度,一塊來探探hadoop的生態圈。 關於Hadoop 日常生活中我們一看到大資料和大資料相關的資訊就會想到

當asp.net core偶遇docker模型驗證和Rabbitmq

  比如我們有一些設計,依賴於某些軟體,比如rabbitmq 當管理員功能,反覆錯誤三五次之後,就傳送一條訊息到佇列裡去,我們又不希望對原先設計帶來侵入式的改變業務 這個時候,我們就可以在模型驗證裡面加入一條衝向rabbitmq的程式碼了 既然是docker,還是先說說如何部署一個docke

Apache Kudu: Hadoop生態系統的新成員實現對快速資料的快速分析

A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop’s storage layer to enable fast analytics on fast dat

小程式篇:mac搭建小程式本地測試伺服器

mac搭建小程式本地測試伺服器 根據教程逐步搭建:https://www.jianshu.com/p/61f50ee77dec 可能遇到的問題: npm未安裝,使用終端語句時報錯npm: command not found,參考教程安裝npm:https://blog.c

【C++】內部類解決名字衝突問題

將內部類看成普通成員,符合普通成員的規則,用法就是正常類的使用方法。 定義內部類 把一個類的定義寫在另一個類的內部,則成裡面的這個類為內部類。例如,下面程式碼中的Inner類 #include <stdio.h> #include <string.h>

python進階資料分析numpy庫

numpy——基礎,以矩陣為基礎的數學計算模組,純數學儲存和處理大型矩陣。  這個是很基礎的擴充套件,其餘的擴充套件都是以此為基礎。 scipy——數值計算庫,在numPy庫的基礎上增加了眾多的數學、科學以及工程計算中常用的庫函式。  方便、易於使用、專為科學和工程設計的Py

selenium點選連結進入子頁面抓取內容新聞抓取案例

找了一個新聞網站練習爬蟲抓取,目標:逐一點選目錄標題,進入詳細新聞頁面,抓取子頁面的標題和正文內容並打印出來,返回目錄標題頁,點選下一篇文章。注:沒有新開視窗,是在原視窗實現跳轉。新開視窗進行抓取看下一篇文章。 試了很多種方法都抓取不到class=rightContent下