1. 程式人生 > >Hadoop產生原因

Hadoop產生原因

對於Hadoop產生的原因,我們從以下三個方面談起:

一、  傳統大規模系統的問題

(1)傳統大規模計算

1.傳統計算受到處理器限制:相對較小的資料量有很多複雜的處理。

 2. 早期的方案:更大的計算機,更快的處理器,更多的記憶體,但即使這樣也不能滿足

(2)分散式系統

  1. 更好的方案:使用更多的機器來處理單個作業

  2. 分散式系統遇到的問題:程式設計的複雜性(用來管理和處理資料的程式很複雜);有限的頻寬

  3.資料瓶頸:傳統系統中,資料儲存在中央儲存;資料在執行時拷貝到處理器;適合限量的資料

 然而,現代系統有很多資料,我們需要尋求新的方法來處理這些資料:Hadoop就應運而生,引入了一個徹底的新方法就是分散式計算,當資料儲存時分佈資料,而且在資料所在的位置執行計算。

二、  Hadoop自身優勢

(1)  Hadoop的源起:

1.思想起源:Google

2.Hadoop之父:Doug Cutting

3.Lucene->Nutch->Hadoop

4. 實現雲端計算的事實標準開源軟體

5.包含數十個具有強大生命力的子專案

6.已經能在上萬節點上執行,處理資料量和排序時間不斷打破世界紀錄

(2)  Hadoop核心設計

1.當資料載入的時候分片成塊

2.Map任務通常作用於單個塊

3.Master程式管理任務


(3)  Hadoop核心概念

1.應用通過高階語言程式碼來寫

2.節點之間儘可能少的通訊

3.資料提前分散式儲存

4.把計算放到資料所在節點執行

5.資料通過多副本儲存來提供可靠性和高可用性

6.Hadoop是可擴充套件並且容錯的

三.Hadoop適用背景

(1)大資料的處理模式:

 主要的處理模式可以分為流處理(stream processing)和批處理(batch processing):批處理是先儲存後處理(store-process);流處理則是直接處理(straight-through process)

 (2)你可以用Hadoop做什麼?

      

(3)資料從哪裡來?

1.科學

醫療影像,感測器資料,基因測序,天氣資料,衛星

2.工業

金融,製藥,製造業,保險,網遊,能源,零售資料

3.資產

銷售資料,客戶行為,產品資料庫,賬戶資料等

4.系統資料

日誌檔案,健康和狀態,活動資訊流,網路訊息,web分析,入侵檢測和垃圾郵件過濾

(4)常見的Hadoop分析型別

ETL;文字挖掘;索引構建;圖建立和分析;模式識別;協同過濾;  預測模型;情感分析;風險評估

(5)使用Hadoop分析的好處

實現以前不可能或不現實的分析;更低的成本;更少的時間;更多的靈活性;近線性的擴充套件性

以上就是根據自己的學習以及實際經驗給大家分享的Hadoop產生的原因,對於更多想要學習和了解大資料的同學來說,這是一個很好的開端;平常大家可以多關注一些大資料的資訊,多看一些大資料相關的書籍,我平常喜歡關注如大資料cn這些微信公眾號,裡面對於大資料的資訊介紹還是不錯的,大家也可以看看。總之,希望我們每一個人都踏踏實實從基礎做起,不斷鞏固提高,一定會取得進步的。

相關推薦

Hadoop產生原因

對於Hadoop產生的原因,我們從以下三個方面談起: 一、  傳統大規模系統的問題 (1)傳統大規模計算 1.傳統計算受到處理器限制:相對較小的資料量;有很多複雜的處理。  2. 早期的方案:更大的計算機,更快的處理器,更多的記憶體,但即使這樣也不能滿足 (2)分散式系統

內存溢出和內存泄漏的區別、產生原因以及解決方案 轉

服務 har 操作 ger 遞歸調用 問題 let share 查錯 內存溢出 out of memory,是指程序在申請內存時,沒有足夠的內存空間供其使用,出現out of memory;比如申請了一個integer,但給它存了long才能存下的數,那就是內存溢出。 內

王立平--android out of memory(OOM)產生原因

默認 -- out mic 產生 con 對象 native 單個 開發圖片視頻應用常遇到這個錯誤。 android 內存由 dalvik 和 native 2部分組成。dalvik 也就是 java 堆,創建的對象就是在這裏分配的, 而

接口測試:如何定位BUG的產生原因

平時 答案 後端 工具地址 返回 似的 parse resp del 我們從在日常功能測試過程中對UI的每一次操作說白了就是對一個或者多個接口的一次調用,接口的返回的內容(移動端一般為json)經過前端代碼的處理最終展示在頁面上。http接口是離我們最近的一層接口,web端

內存溢出和內存泄漏的區別,產生原因以及解決方案

解決方案 集合類 釋放內存 分頁 需求 查看內存 取出 程序 tof 一、概念與區別 內存溢出 out of memory,是指程序在申請內存時,沒有足夠的內存空間供其使用,出現out of memory;比如申請 了一個integer,但給它存了long才能存下的數,那就

33-多執行緒--賣票示例+執行緒安全(產生原因+解決方式:同步)+同步(同步程式碼塊+同步的好處與弊端+同步的前提+同步函式+賣票示例的同步函式寫法+驗證同步函式的鎖+驗證靜態同步函式的鎖)

一、賣票示例 需求:四個視窗,同時售賣100張票,票號為1-100 1、沒有多執行緒時的賣票程式碼 class Ticket { //100張票 private int num = 100; public void sale() { /

記憶體溢位和記憶體洩漏的區別、產生原因以及解決方案【轉】

(轉自:https://www.cnblogs.com/Sharley/p/5285045.html) 記憶體溢位 out of memory,是指程式在申請記憶體時,沒有足夠的記憶體空間供其使用,出現out of memory;比如申請了一個integer,但給它存了long才能存下的數,那就

記憶體洩露和記憶體溢位的區別 (概念區別 產生原因區別 及解決辦法) 個人整理

記憶體洩露和記憶體溢位的區別 概念區別 記憶體溢位 : out of memory 指程式在申請記憶體時,沒有足夠的記憶體空間供其使用,出現out fo memory 比如申請一個integer 但給它存了long才能存下的數那就是記憶體溢位 記憶體洩露 : memory leak 指程

ConcurrentModificationException: 集合異常——產生原因和解決方法!

:注意事項:迭代器在使用的時候,有人為了方便,如下使用就會有問題 System.out.println(((Student)it.next()).getName()+”---”+((Student)it.next()).getAge()); 注意事項:迭代器在使用的時候,有人為了方便,如下使

bug產生原因分析

目錄 一、前後端使用架構導致 二、開發人員經驗問題/思維嚴謹性導致 三、業務特點導致 四、測試人員的經驗缺乏導致 五、迭代週期不合理導致 六、上下游業務嚴重耦合導致 前言           產生bug的具體原因或

跨域產生原因及處理方式

1.跨域產生原因 當前站點頁面訪問當前站點之外的資源 2.產生跨域例子(直接瀏覽器開啟 訪問localhost:8080的資源) <!DOCTYPE html> <html> <head> <title>跨域</titl

Linux環境下段錯誤的產生原因及除錯方法小結(轉)

轉自 最近在Linux環境下做C語言專案,由於是在一個原有專案基礎之上進行二次開發,而且專案工程龐大複雜,出現了不少問題,其中遇到最多、花費時間最長的問題就是著名的“段錯誤”(Segmentation Fault)。藉此機會系統學習了一下,這裡對Linux環境下的段錯誤

Java架構學習(四十一)SpringCloud&基礎回顧&使用Fegin客戶端呼叫&服務雪崩效應產生原因&Jmeter模擬服務雪崩效應&解決雪崩效應辦法&Hystrix解決雪崩效應&相關面試

前置知識 SpringCloud 是微服務解決框架,主要應用在RPC遠端呼叫。 2、裡面集成了Eureka註冊中心、Ribbon負載均衡客戶端、Zuul介面閘道器 分散式配置中心。 3、SpringCloud客戶端呼叫工具、rest、fegin。 4、Spri

記憶體溢位和記憶體洩漏的區別、產生原因以及解決方案

記憶體溢位 out of memory,是指程式在申請記憶體時,沒有足夠的記憶體空間供其使用,出現out of memory;比如申請了一個integer,但給它存了long才能存下的數,那就是記憶體溢位。 記憶體洩露 memory leak,是指程式在申請記憶體後,無法釋

移動端1px產生原因及解決之道

產生原因     因為Retine屏的解析度始終是普通螢幕的2倍,1px的邊框在devicePixelRatio=2的retina屏下會顯示成2px,所以在高清瓶下看著1px總是感覺變胖了,關於詳細原因介紹參考大漠的文章:http://www.w3cplus.com/css

深入bug產生原因分析(二)那些耽誤了測試時間的無效bug

前言              之前寫深入bug產生原因分析(一),這裡主要從實際的專案bug中,總結出了實際bug的根源的幾個方面。這些問題的解決不但沒有對最終交付的產品有所裨益,反而耽誤了不少測試時間。現在就簡要做下梳理,

AJAX跨域產生原因及解決方法

什麼是跨域:        跨域問題來源於JavaScript的同源策略,即只有 協議+主機名+埠號 (如存在)相同,則允許相互訪問。也就是說JavaScript只能訪問和操作自己域下的資源,不能訪問和操作其他域下的資源。跨域問題是針對JS和ajax的,html本身沒有跨域問

Android App 啟動頁(Splash)黑/白閃屏現象產生原因與解決辦法

驚鴻一瞥 微信的啟動頁,相信大家都不陌生。 不知道大家有沒有發現一個現象,微信每次啟動的時候,是直接進入這個啟動頁面。 我的意思是,很多應用,往往會先白屏停頓一下後再進入啟動頁面(Splash)。為了印證這一點,我把手機上所有的App都點了一遍。選幾個例子

Linux的殭屍程序產生原因及解決方法

來源:http://www.blogdaren.com/post-882.html 1. 產生原因:     在UNIX 系統中,一個程序結束了,但是他的父程序沒有等待(呼叫wait / waitpid)他,那麼他將變成一個殭屍程序。通過ps命令檢視其帶有defunc

Android OOM產生原因及如何解決

OOM產生原因 OOM產生可能的原因是因為 1、載入大圖片導致記憶體溢位 2、大量記憶體洩露 OOM產生的本質是什麼呢? Dalvik VM主要管理的記憶體 Java heap,由於手機裝置的限制,一般一個應用使用的記憶體不能超過預設值 32M(不