大資料都學什麼?(初學者)
一、學習大資料需要的基礎
java SE,EE(SSM)90%的大資料框架都是java寫的
MySQL
SQL on Hadoop
Linux
大資料的框架安裝在Linux作業系統上
二、需要學什麼
第一方面:大資料離線分析
一般處理T+1資料Hadoop 2.X:(common、HDFS、MapReduce、YARN)
環境搭建,處理資料的思想
Hive:
大資料資料倉庫
通過寫SQL對資料進行操作,類似於mysql資料庫中的sql
HBase
基於HDFS的NOSQL資料庫
面向列的儲存
協作框架:
sqoop(橋樑:HDFS 《==》RDBMS)
flume:收集日誌檔案中資訊
排程框架anzkaban,瞭解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)
擴充套件前沿框架:
kylin、impala、ElasticSearch(ES)
注意:關於第一方面的內容我的另一篇部落格有詳細的總結(是我搜索大量網上資料所得,可以幫你省下不少時間)
第二方面:大資料實時分析
以spark框架為主Scala:OOP + FP
sparkCore:類比MapReduce
sparkSQL:類比hive
sparkStreaming:實時資料處理
kafka:訊息佇列
前沿框架擴充套件:flink
阿里巴巴 blink
第三方面:大資料機器學習(擴充套件)
spark MLlib:機器學習庫pyspark程式設計:Python和spark的結合
推薦系統
python資料分析
Python機器學習
大資料框架安裝功能來劃分
海量資料儲存:
HDFS、Hive(本質儲存資料還是hdfs)、HBASE、ES
海量資料分析:
MapReduce、Spark、SQL
最原始的Hadoop框架
資料儲存:HDFS(Hadoop Distributed File System)
資料分析:MapReduce
Hadoop的起源
Google的三篇論文
雖然Google沒有公佈這三個產品的原始碼,
但是他釋出了這三個產品的詳細設計論文,
奠定了風靡全球的大資料演算法的基礎!
Google FS HDFS
MapReduce MapReduce
BigTable HBase
將任務分解然後在多臺處理能力較弱的計算節點中同時處理,然後將結果合併從而完成大資料處理。
google:android,搜尋,大資料框架,人工智慧框架
pagerank
Hadoop介紹
大資料絕大多數框架,都屬於Apache頂級專案
http://apache.org/
hadoop官網:
http://hadoop.apache.org/
分散式
相對於【集中式】
需要多臺機器,進行協助完成。
元資料:記錄資料的資料
架構:
主節點Master 老大,管理者
管理
從節點Slave 從屬,奴隸,被管理者
幹活
Hadoop也是分散式架構
common
HDFS:
主節點:NameNode
決定著資料儲存到那個DataNode上
從節點:DataNode
儲存資料
MapReduce:
分而治之思想
將海量的資料劃分為多個部分,每部分資料進行單獨的處理,最後將所有結果進行合併
map task
單獨處理每一部分的資料、
reduce task
合併map task的輸出
YARN:
分散式叢集資源管理框架,管理者叢集的資源(Memory,cpu core)
合理排程分配給各個程式(MapReduce)使用
主節點:resourceManager
掌管叢集中的資源
從節點:nodeManager
管理每臺叢集資源
總結:Hadoop的安裝部署
都屬於java程序,就是啟動了JVM程序,執行服務。
HDFS:儲存資料,提供分析的資料
NameNode/DataNode
YARN:提供程式執行的資源
ResourceManager/NodeManager
相關推薦
大資料都學什麼?(初學者)
一、學習大資料需要的基礎 java SE,EE(SSM) 90%的大資料框架都是java寫的 MySQL SQL on Hadoop Linux 大資料的框架安裝在Linux作業系統上二、需要學什麼 第一方面:
大資料重新定義未來,2018 中國大資料技術大會(BDTC)豪華盛宴搶先看!
隨著資訊科技的迅猛發展,資料的重要性和價值已毋庸置疑,資料正在改變競爭格局,成為重要的生產因素,更被定義為“21世紀的新石油”。在資訊高速傳播的今天,資料已經滲透到每一個行業和業務職能領域,指數級的速度增長將我們帶入大資料時代。作為年度技術趨勢與行業應用的風向標,2018 中國大資料技術大會(BDT
大資料之Spark(五)--- Spark的SQL模組,Spark的JDBC實現,SparkSQL整合MySQL,SparkSQL整合Hive和Beeline
一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl
大資料之Spark(四)--- Dependency依賴,啟動模式,shuffle,RDD持久化,變數傳遞,共享變數,分散式計算PI的值
一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |
大資料之Spark(三)--- Spark核心API,Spark術語,Spark三級排程流程原始碼分析
一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop
大資料之Spark(二)--- RDD,RDD變換,RDD的Action,解決spark的資料傾斜問題,spark整合hadoop的HA
一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式
大資料之Spark(一)--- Spark簡介,模組,安裝,使用,一句話實現WorldCount,API,scala程式設計,提交作業到spark叢集,指令碼分析
一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java
大資料之scala(四) --- 模式匹配,變數宣告模式,樣例類,偏函式,泛型,型變,逆變,隱式轉換,隱式引數
一、模式匹配:當滿足case條件,就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case
大資料之scala(三) --- 類的檢查、轉換、繼承,檔案,特質trait,操作符,apply,update,unapply,高階函式,柯里化,控制抽象,集合
一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {
大資料之scala(二) --- 對映,元組,簡單類,內部類,物件Object,Idea中安裝scala外掛,trait特質[介面],包和包的匯入
一、對映<Map> ----------------------------------------------------- 1.建立一個不可變的對映Map<k,v> ==> Map(k -> v) scala> val map
大資料之scala(一) --- 安裝scala,簡單語法介紹,條件表示式,輸入和輸出,迴圈,函式,過程,lazy ,異常,陣列
一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行,進入scala命
Java和大資料結合學習(2)
抽象類 1.abstract宣告; 為什麼介面的物件可以指向例項化物件呢? 介面 1.介面不能例項化,但是介面的物件可以指向實現類的物件。 2.介面內的方法預設為public abstract,所以不能被例項化, 3.介面其實就是為了實現多繼承
大資料學習路線(轉載)
學習路線文章 哎,都是淚!!! 一、大資料技術基礎 1、linux操作基礎 linux系統簡介與安裝 linux常用命令–檔案操作 linux常用命令–使用者管理與許可權 linux常用命令–系統管理 linux常用命令–免密登陸配置與網路管理 linux上常用軟體安裝 linux本地yum源配置及yum
大資料之Spark(七)--- Spark機器學習,樸素貝葉斯,酒水評估和分類案例學習,垃圾郵件過濾學習案例,電商商品推薦,電影推薦學習案例
一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集,產生一個推斷函式
大資料之Spark(六)--- Spark Streaming介紹,DStream,Receiver,Streamin整合Kafka,Windows,容錯的實現
一、Spark Streaming介紹 ----------------------------------------------------------- 1.介紹 是spark core的擴充套件,針對實時資料的實時流處理技術 具有可擴充套件、高吞吐量、
大資料之Spark(八)--- Spark閉包處理,部署模式和叢集模式,SparkOnYarn模式,高可用,Spark整合Hive訪問hbase類載入等異常解決,使用spark下的thriftserv
一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。 分割槽列表,function,dep Op
盛會再臨,2018 中國大資料技術大會(BDTC)首曝日程及議題
滿目皆乾貨,俯仰盡拾珠。作為年度技術趨勢與行業應用的風向標,連續成功舉辦十一年的中國大資料技術大會(BDTC)攜主題“大資料新應用”再度強勢來襲,穩踏技術時代浪潮,勢將引爆今冬技術圈。 資料,讓一切有跡可循,讓一切有源可溯。2018 年12 月 6-8 日,由中國計算
八折進行中 | 2018 中國大資料技術大會(BDTC)首輪講師陣容震撼來襲!
暌違一載,今又相約。作為年度技術趨勢與行業應用的風向標,2018 中國大資料技術大會(BDTC 2018)攜主題“大資料新應用”再度強勢來襲,穩踏技術時代浪潮,勢將引爆今冬技術圈。 2018 年12 月 6-8 日,由中國計算機學會主辦,CCF大資料專家委員會承辦,CS
流式大資料計算實踐(2)----Hadoop叢集和Zookeeper
一、前言 1、上一文搭建好了Hadoop單機模式,這一文繼續搭建Hadoop叢集 二、搭建Hadoop叢集 1、根據上文的流程得到兩臺單機模式的機器,並保證兩臺單機模式正常啟動,記得第二臺機器core-site.xml內的fs.defaultFS引數值要改成本機的來啟動,啟動完畢後再改回來 2、清空資
流式大資料計算實踐(3)----高可用的Hadoop叢集
流式大資料計算實踐(3)----高可用的Hadoop叢集 一、前言 1、上文中我們已經搭建好了Hadoop和Zookeeper的叢集,這一文來將Hadoop叢集變得高可用 2、由於Hadoop叢集是主從節點的模式,如果叢集中的namenode主節點掛掉,那麼叢集就會癱瘓,所以我們要改造成