大資料學習總結（一）分散式Hadoop系統

阿新 • • 發佈：2019-01-09

Scala tips：在前面的類層次結構圖中可以看到，Null型別是所有AnyRef型別的子型別，也即它處於AnyRef類的底層，對應java中的null引用。而Nothing是scala類中所有類的子類，它處於scala類的最底層。

近期投入大資料組工作，就寫一寫總結，記錄一下學習過程。

Hadoop分散式系統主要涵蓋以下幾個模組：分散式檔案系統HDFS，經典計算模型MAP-REDUCE，資料倉庫工具Hive，分散式資料庫Hbase。

下面是HDFS結構體：

HDFS採用主從（Master/Slave）結構模型，一個HDFS叢集是由一個NameNode和若干個DataNode組成的（在最新的Hadoop2.2版本已經實現多個NameNode的配置-這也是一些大公司通過修改hadoop原始碼實現的功能，在最新的版本中就已經實現了）。NameNode作為主伺服器，管理檔案系統名稱空間和客戶端對檔案的訪問操作。DataNode管理儲存的資料。HDFS支援檔案形式的資料。

從內部來看，檔案被分成若干個資料塊，這若干個資料塊存放在一組DataNode上。NameNode執行檔案系統的名稱空間，如開啟、關閉、重新命名檔案或目錄等，也負責資料塊到具體DataNode的對映。DataNode負責處理檔案系統客戶端的檔案讀寫，並在NameNode的統一排程下進行資料庫的建立、刪除和複製工作。NameNode是所有HDFS元資料的管理者，使用者資料永遠不會經過NameNode。

大資料學習總結（一）分散式Hadoop系統

Scala tips：在前面的類層次結構圖中可以看到，Null型別是所有AnyRef型別的子型別，也即它處於AnyRef類的底層，對應java中的null引用。而Nothing是scala類中所有類的子類，它處於scala類的最底層。近期投入大資料組工作，就寫一

java 後臺封裝json資料學習總結（一）

一、資料封裝1. List集合轉換成json程式碼　　List list = new ArrayList();　　list.add( "first" );　　list.add( "second" );　　JSONArray jsonArray2 = JSONArray.fro

資料結構與演算法學習總結（一）

1.什麼是資料結構和演算法資料結構，就是一組資料的儲存結構。演算法，就是操作資料的一組方法。資料結構是為演算法服務的，演算法要作用在特定的資料結構之上。 2.為什麼要學習資料結構和演算法？（1）對個人：資料結構和演算法是程式設計師的必修課程之一，能幫助我們寫出效能更

最大熵學習筆記（一）預備知識

color wrap targe dsm entropy plus 文件 eight 相關鏈接生活中我們常常聽到人們說“不要把雞蛋放到一個籃子裏”。這樣能夠減少風險。深究一下，這是為什麽呢？事實上，這裏邊包括了所謂的最大熵原理（The Maxim

JSON必知必會學習總結（一）

tor lint 沒有 script app 對數數據交換格式 object 什麽七月第一周，從學校畢業回來上班的第一周。離開一段時候後，再次回來重新工作，有了很多新的認識，不再是實習時那麽混混沌沌了。每天我自己該做什麽，怎麽做，做到什麽程度更清晰了。除了要去完成我負責

PHP學習總結（一）

encode 什麽 code 解決 new span att 面向對象反斜杠》PHP 面向對象使用parent訪問父類的構造方法（__construct）時一定要為當前類繼承要訪問的構造方法類的構造方法（__construct）在實例化時直接被加載，靜態方法

Java IO學習總結（一）

file flush writer directory 創建 str java 資源 tab 一、File 類 Java中不管文件還是目錄都可以使用File類操作，File能新建、刪除、重命名文件和目錄，但是不能訪問文件內容本身，訪問文件內容需要使用輸入輸出流。 Fi

JSP學習總結（一）

展示 cat 一起 time server 資源 type div simple 一、JSP的介紹與項目部署 JSP，全稱 Java server page是由Sun公司開發的一種動態生成網頁資源的技術。JSP技術使用java語言作為腳本語言，可以將html元素和java代

JAVA學習總結（一）

產生 java虛擬機右鍵分布式系 jdk 問題功能地址輸出一、Java是什麽? Java 是由 Sun Microsystems 在 1995 年首先發布的編程語言和計算平臺。Java 是一項用於開發應用程序的技術，可以讓 Web 變得更有意思和更實用。有許多應

Linux學習總結（一） windos環境vmware安裝centos7

color 學習總結 oot 遠程訪問服務分享圖片 watermark 需要 mage 磁盤大小 1.在這裏我先簡單介紹下虛擬化技術，就是我們通過軟件虛擬化出來一個硬件環境，然後就可以在系統裏面安裝子系統，以來我們避免了裝linux，windos雙系統的麻煩，二來我們可以

webservice學習總結（一）-- WebService相關概念介紹

IT strong 資源 fire 求和 log AC service服務為什麽一、WebService是什麽？基於Web的服務：服務器端整出一些資源讓客戶端應用訪問（獲取數據）一個跨語言、跨平臺的規範（抽象）多個跨平臺、跨語言的應用間通信整合的方案（實際）

【Java】 Spring 框架初步學習總結（一）簡單實現 IoC 和 AOP

1.0 其中表示只需要第一篇否則 info fin pojo 　　Spring 是一個開源的設計層面的輕量級框架，Spring 的好處網上有太多，這裏就不在贅述。　　IoC 控制反轉和 AOP 面向切面編程是 Spring 的兩個重要特性。　　IoC（Inver

python學習總結（一），第一個python程序的編寫

程序代碼 spa 編碼結構編輯下載地址 utf 修改編碼 general 1. python是一種解釋性，編譯型，互動型的語言，面向對象，動態數據類型的高級程序設計語言。 1.1 交互式：意味著可以在一個提示符直接交互執行你寫的程序。 1.2 解釋型：意味著開發過程中

MyBatis學習總結（一）——ORM概要與MyBatis快速起步

管理 stat prim aot 驅動單元測試 build sta 環境目錄一、ORM 1.1、ORM簡介 1.2、ORM的概念 1.3、ORM的優缺點二、MyBatis 2.1、MyBatis的特點 2.2、MyBatis工作流程

[學習總結] python語言學習總結（一）

用py也很久了，很多東西只知道拿來用，並沒有深究，感覺這樣是不夠的。我決定寫這麼一篇總結，把很多遺忘的東西拾起來，把很多沒搞懂的東西搞清楚。 1.eval函式用法：eval(expression, globals=None, locals=None) 解釋：將字串str當成有效的表

Dubbo的學習總結（一）——遠端呼叫

在學習用dubbo進行分散式遠端呼叫之前，先來看一個簡單的有關訪問網路上的天氣預報介面的遠端呼叫例項。 1.先建立一個java專案，建立過程這裡不詳細講述，只附上一張截圖供入門級選手參考： 2.建立好一個java專案後，接下來就是建立一個Weather實體類（這裡可以使用lombok的@Da

Http學習總結（一）

http使用面向連線的TCP作為傳輸層協議。http本身無連線。請求報文 CRLF是回車換行方法為GET的請求報文方法為POST的請求報文 &n

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

大資料之scala（一） --- 安裝scala，簡單語法介紹，條件表示式，輸入和輸出，迴圈，函式，過程，lazy ，異常，陣列

一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行，進入scala命

多執行緒學習總結（一）

一、程序和執行緒的定義程序：程序是資源（CPU、記憶體等）分配的基本單位，它是程式執行時的一個例項。程式執行時系統就會建立一個程序，併為它分配資源，然後把該程序放入程序就緒佇列，程序排程器選中它的時候就會為它分配CPU時間，程式開始真正執行。執行緒：執行緒是程式執行時的最小單位，它是程序