入門-大資料概論及Hadoop介紹
1、大資料概論
大資料(big data):指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
主要解決,海量資料的儲存和海量資料的分析計算問題。
按順序給出資料儲存單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T
大資料的特點:Volume (大量)、Velocity (高速)、Variety (多樣)、Value (低價值密度)
企業(大中型企業)資料部的一般組織結構:
2、Hadoop介紹:
2.1、Hadoop是什麼
1)Hadoop 是一個由 Apache 基金會所開發的分散式系統基礎架構。
2)主要解決,海量資料的儲存和海量資料的分析計算問題。
3)廣義上來說,HADOOP 通常是指一個更廣泛的概念——HADOOP 生態圈。
2.2、Hadoop三大發行版本
Apache 版本最原始(最基礎)的版本,對於入門學習最好。
Cloudera 在大型網際網路企業中用的較多。
Hortonworks 文件較好。
2.3、Hadoop優勢
高可靠性:因為 Hadoop 假設計算元素和儲存會出現故障,因為它維護多個工作資料副本,在出現故障時可以對失敗的節點重新分佈處理。
高擴充套件性:在叢集間分配任務資料,可方便的擴充套件數以千計的節點。
高效性:在 MapReduce 的思想下,Hadoop 是並行工作的,以加快任務處理速度。
高容錯性:自動儲存多份副本資料,並且能夠自動將失敗的任務重新分配。
2.4、Hadoop組成
1)Hadoop HDFS:一個高可靠、高吞吐量的分散式檔案系統。
2)Hadoop MapReduce:一個分散式的離線平行計算框架。
3)Hadoop YARN:作業排程與叢集資源管理的框架。
4)Hadoop Common:支援其他模組的工具模組(Configuration、RPC、序列化機制、日誌 操作)。
2.5、大資料技術生態體系
1)Sqoop:sqoop 是一款開源的工具,主要用於在 Hadoop(Hive)與傳統的資料庫(mysql)間進 行資料的傳遞,可以將一個關係型資料庫(例如 : MySQL ,Oracle 等)中的資料導進到 Hadoop 的 HDFS 中,也可以將 HDFS 的資料導進到關係型資料庫中。
2)Flume:Flume 是 Cloudera 提供的一個高可用的,高可靠的,分散式的海量日誌採集、聚 合和傳輸的系統,Flume 支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,Flume 提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。
3)Kafka:Kafka 是一種高吞吐量的分散式釋出訂閱訊息系統,有如下特性: (1)通過 O(1)的磁碟資料結構提供訊息的持久化,這種結構對於即使數以 TB 的訊息 儲存也能夠保持長時間的穩定效能。 (2)高吞吐量:即使是非常普通的硬體 Kafka 也可以支援每秒數百萬的訊息 (3)支援通過 Kafka 伺服器和消費機叢集來分割槽訊息。 (4)支援 Hadoop 並行資料載入。
4)Storm:Storm 為分散式實時計算提供了一組通用原語,可被用於“流處理”之中,實時 處理訊息並更新資料庫。這是管理佇列及工作者叢集的另一種方式。 Storm 也可被用於“連 續計算”(continuous computation),對資料流做連續查詢,在計算時就將結果以流的形式 輸出給使用者。
5)Spark:Spark 是當前最流行的開源大資料記憶體計算框架。可以基於 Hadoop 上儲存的大資料進行計算。
6)Oozie:Oozie 是一個管理 Hdoop 作業(job)的工作流程排程管理系統。Oozie 協調作業 就是通過時間(頻率)和有效資料觸發當前的 Oozie 工作流程。
7)Hbase:HBase 是一個分散式的、面向列的開源資料庫。HBase 不同於一般的關係資料庫, 它是一個適合於非結構化資料儲存的資料庫。
8)Hive:hive 是基於 Hadoop 的一個數據倉庫工具,可以將結構化的資料檔案對映為一張 資料庫表,並提供簡單的 sql 查詢功能,可以將 sql 語句轉換為 MapReduce 任務進行執行。 其優點是學習成本低,可以通過類 SQL 語句快速實現簡單的 MapReduce 統計,不必開發專 門的 MapReduce 應用,十分適合資料倉庫的統計分析。
9)R 語言:R 是用於統計分析、繪圖的語言和操作環境。R 是屬於 GNU 系統的一個自由、 免費、原始碼開放的軟體,它是一個用於統計計算和統計製圖的優秀工具。
10)Mahout: Apache Mahout 是個可擴充套件的機器學習和資料探勘庫,當前 Mahout 支援主要的 4 個用 例: 推薦挖掘:蒐集使用者動作並以此給使用者推薦可能喜歡的事物。 聚集:收集檔案並進行相關檔案分組。 分類:從現有的分類文件中學習,尋找文件中的相似特徵,併為無標籤的文件進行正確 的歸類。 頻繁項集挖掘:將一組項分組,並識別哪些個別項會經常一起出現。
11)ZooKeeper:Zookeeper 是 Google 的 Chubby 一個開源的實現。它是一個針對大型分佈 式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分散式同步、組服務等。 ZooKeeper 的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能 穩定的系統提供給使用者。
相關推薦
入門-大資料概論及Hadoop介紹
1、大資料概論 大資料(big data):指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。 主要解決,海量資料的儲存和海量資料的分析計算問題。 按順序
10小時入門大資料(二)------初識Hadoop
10小時入門大資料(二)——初識Hadoop 1、Hadoop介紹 開源、分散式儲存+分散式計算平臺 2、Hadoop能做什麼 搭建大型資料倉庫、PB級資料儲存、處理、分析、統計等 搜尋引擎、日誌分析、商業智慧、資料探勘 3、核心元件之分散式檔案系統
大資料學習之Hadoop快速入門
1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分散式系統整合架構,使用者可以在不瞭解分散式底層細節情況下,開發分散式程式,充分利用叢集的威力來進行高速運算與儲存,具有可靠、高效、可伸縮的特點。 大資料學習資料分享群119599574 Hadoop
新手入門大資料 Hadoop基礎與電商行為日誌分析
爬取圖蟲網 為什麼要爬取這個網站,不知道哎~ 莫名奇妙的收到了,感覺圖片質量不錯,不是那些妖豔賤貨 可以比的,所以就開始爬了,搜了一下網上有人也在爬,但是基本都是py2,py3的還沒有人寫,所以順手寫一篇吧。 起始頁面 https://tuchong.com/explore/
大資料概念和Hadoop基本介紹
開始學習大資料,一步一個腳印,好好堅持下去!大資料概述1.大資料特徵 第一個,volume(量),大資料第一個基礎是它的資料量要大;第二個,velocity(速度),大資料一個很重要的它必須是實時產生的,一個兩年以前很大的資料,在今天的時代裡面是不能夠被稱之為大資料的;第三個
從五篇paper入門大資料與Hadoop(二):GFS
一.GFS設計概覽 1.1目標預想 • 架設在多臺便宜的的裝置而不是大型伺服器上,因此要強調容錯性 • 相容large streaming read和small random reads • 主要支
如何快速入門大資料學習,有哪些入門技巧
最近一年的時間裡,我見證了很多朋友完成大資料入門的轉型,他們之中有從事傳統行業,有剛從校園畢業,也有做著與資料毫不相關的網際網路工作。當然,在他們選擇方向即將裸辭的同時,我也與一些朋友進行交談過,並從我的個人角度上給予了一些實質性的建議,以及鼓勵。本文分享一位科多大資料張老師的資料入門故事,希望能夠
此文獻給正打算入門大資料的朋友:大資料學習筆記1000條(1)
1、Zookeeper用於叢集主備切換。 2、YARN讓叢集具備更好的擴充套件性。 3、Spark沒有儲存能力。 4、Spark的Master負責叢集的資源管理,Slave用於執行計算任務。 5、Hadoop從2.x開始,把儲存和計算分離開來,形成兩個相對獨立的子叢集:HDF
入門大資料行業!必備的十大基礎
現在由於人工智慧的大熱,這方面的人才稀缺,薪資水平不用說,行業中的NO.1,所以各路人馬紛紛集結網際網路行業,有轉行的,有轉崗的。對於初學者在學習這方面肯定有許多疑問,是什麼疑問呢,我在這裡一 一給你解答。 推薦下小編的大資料學習群;251956502,不管你是小白還是大牛,小編我都歡迎,不定期
此文獻給正打算入門大資料的朋友:大資料學習筆記1000條(2)
501、MapReduce計算框架中的輸入和輸出的基本資料結構是鍵-值對。 502、Hadoop神奇的一部分在於sort和shuffle過程。 503、Hive驅動計算的“語言”是一XML形式編碼的。 504、Hive通過和Jobtracker通訊來初始化MapReduce任務(Job)。 505、M
【大資料】瞭解Hadoop框架的基礎知識
介紹 此Refcard提供了Apache Hadoop,這是最流行的軟體框架,可使用簡單的高階程式設計模型實現大型資料集的分散式儲存和處理。我們將介紹Hadoop最重要的概念,描述其架構,指導您如何開始使用它以及在Hadoop上編寫和執行各種應用程式。 簡而言之,Hadoop是Apache Softwar
學習大資料開發需要讀的書籍有哪些?大資料開發書籍推薦介紹
學習大資料少不了平時的技術經驗的積累,只有不斷的積累才能在熟能生巧中精益求精。 今天向大家推薦一批大資料書籍,大家可以在業餘的時候閱讀,加深對大資料的瞭解,分享給大家看看~ 1.資料之巔 內容簡介: 在《資料之巔》這本書中,從小資料時代到大資料的崛起,作者以巨集大的歷史觀、文化觀、大資料
快速入門大資料
本人30歲,從學大資料到現在有6年的時間,我談一下我的經驗分享 我自己的經歷:剛開始大資料是看書,一頁頁的看書,因為身邊有一個好的資源,有問題可以問我朋友,後來發現看大資料的零基礎書籍很難看下去,很多專業的東西對於一個新手根本就看不懂,沒有什麼效率。(在這裡我個人建議,初學不要看書,我的建議是學
大資料開發之Hadoop篇----pid檔案剖析
這裡我們先看下在我還沒有啟hdfs那三個程序的時候,/tmp目錄下的情況: 現在我啟動一下hdfs三個程序: 這個時候有沒發現在/tmp目錄下多出了幾個檔案 這幾個檔案記錄的是什麼呢? 儲存的就是namenode這個程序的程序號,當我們關掉這幾個程序後,在/t
大資料開發之Hadoop篇----hdfs讀寫許可權操作
由於hdfs的結構和linux是差不多的,所以我們在hdfs的讀寫操作上也是會面臨許可權和路徑問題問題,先讓我們來看下這些都是些什麼問題。 這裡我先上傳了一個README.txt的檔案上去,通過hdfs dfs -ls /user/hadoop命令我們已經可以檢視到hdfs上有了這個檔案了
大資料開發之Hadoop篇----mapreduce概念以及架構
在我們瞭解了hdfs的一些基礎概念以後,我們現在就來進一步瞭解一下mapreduce的相關概念。 首先,mapreduce在hadoop體系裡面充當一個計算者的角色,但如我們之前所演示一樣我們在開啟hdfs和yarn時都有相關的程序,但mapreduce就是沒有的。mapreduce是直接執行在
大資料開發之Hadoop篇----hdfs垃圾回收機制配置
其實要啟動hdfs上的垃圾回收機制只需要配置兩個引數就可以了,也是在core-site.xml上配置就好了,我們先去官網看下這個兩引數的解釋。 官網的解釋是:Number of minutes after which the checkpoint gets deleted. If zero
大資料開發之Hadoop篇----提交作業到yarn上的流程
當一個mapreduce作業被提交到yarn上面的時候,他的流程是這樣的: 1,當client想yarn提交了作業後,就意味著想ResourceManager申請一個ApplicationMaster。這個時候RM(這裡我們將ResourceManager簡稱為RM,同理NodeManager為
大資料開發之Hadoop篇----hdfs讀流程
讀流程所涉及到的有client,NameNode和DataNode這個三個,我們來了解下這三個之間在讀流程裡都是幹什麼的。 1,當我們輸入一條讀入資料的命令的時候,如:hdfs dfs -ls / 或者 hdfs dfs -cat /user/hadoop/xxx時,client就通
大資料開發之Hadoop篇----hdfs dfsadmin命令
今天我們來了解一下hdfs dfsadmin這個命令,前面我們已經多次使用了hdfs dfs這個命令來對hdfs上的檔案進行操作了。而是在生產上面我們還是會遇到不同的情況。今天我們簡單講解一下hdfs dfsadmin中的兩個命令,以及他們在生產當中是怎樣使用的 1,hdfs dfsadmin