寫給大資料開發初學者的話
離線計算:Hadoop MapReduce、Spark
流式、實時計算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL資料庫:HBase、Redis、MongoDB
資源管理:YARN、Mesos
日誌收集:Flume、Scribe、Logstash、Kibana
訊息系統:Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分散式協調服務:Zookeeper
叢集管理與監控:
資料探勘、機器學習:Mahout、Spark MLLib
資料同步:Sqoop
任務排程:Oozie
……
相關推薦
寫給大資料開發初學者的話(附學習路線)
第一章:初識Hadoop 第二章:更高效的WordCount 第三章:把別處的資料搞到Hadoop上 第四章:把Hadoop上的資料搞到別處去 第五章:快一點吧,我的SQL 第六章:一夫多妻制 第七章:越來越多的分析任務 第八章:我的資料要實時 第九章:我的資料
寫給大資料開發初學者的話
Hadoop HDFS、Tachyon、KFS 離線計算:Hadoop MapReduce、Spark 流式、實時計算:Storm、Spark Streaming、S4、Heron K-V、NOSQL資料庫:HBase、Redis、MongoDB 資源管理:YARN、Mesos 日誌收集:Flu
寫給大數據開發初學者:如何讀懂大數據平臺
大數據 大數據學習 大數據開發 大數據編程 其實這就是想告訴你的大數據的三個發展方向,平臺搭建 優化 運維 監控、大數據開發 設計 架構、數據分析 挖掘。請不要問我哪個容易,哪個前景好,哪個錢多。 本文將從以下十個章節介紹大數據平臺,希望能給大數據開發初學者、愛好者一些支持。第一章:初識Had
大資料開發初學者必看的學習路線
大資料時代的出現簡單的講是海量資料同完美計算能力結合的結果,確切的說是移動網際網路、物聯網產生了海量的資料,大資料計算技術完美地解決了海量資料的收集、儲存、計算、分析的問題。當我們最初談大資料的時候,談的最多的可能是使用者行為分析,即通過各種使用者行為,包括瀏覽記錄,消費記錄,交往和購物娛樂,行動軌跡等各種使
為什麼學習大資料,大資料科學家寫給大資料學習者的堅定理由
點進來的同學,大部分是為了學程式設計而來的,這裡面有一部分學程式設計是出於興趣愛好,但大部分都是為了找工作或跳槽吧!其中有些人也許是覺得難,也許是遇到瓶頸,也許是因為惰性,總之半途而廢了。在這新一年的開始,我想對你說一句:不要輕易放棄,如果你覺得艱難,說明你正在走上坡路!
大資料開發初學者學習路線
目錄 最近看到一篇很不錯的文章,獻給正在學習大資料的你我他。如果能答出文章中大部分問題,那麼恭喜你已經從“小白”進化到“小菜鳥”的階段。 轉自:http://www.ppvke.com/Blog/archives/50967 前言 其實這就是想告訴你的大資料的三個發
為什麼要學習大資料呢?寫給大資料分析學習者的10個理由
因為大資料爆發,因此出現了大資料開發、大資料分析這兩大主流的工作方向,目前這兩個方向是很熱門,不少人已經在開始轉型往這兩個方向發展,相較而言,轉向大資料分析的人才更多一點,而同時也有不少人在觀望中,這邊科多大資料收集了十個為什麼要學習大資料分析的十個理由。 推薦下小編的大資料學習群;251956
寫給初學大資料的你,從零開始學習大資料開發的完整學習路線
最近很多人都想學習大資料開發,但是卻不知道如何開始學習,今天專門整理了一份針對大資料初學者的大資料開發學習路線。 下面分十個章節來說明大資料開發要學習的內容: 網際網路科技發展蓬勃興起,人工智慧時代來臨,抓住下一個風口。為幫助那些往想網際網路方向轉行想學習,卻因為時間不夠,資源不足而放棄的人。我自
大資料開發之Hadoop篇----hdfs讀寫許可權操作
由於hdfs的結構和linux是差不多的,所以我們在hdfs的讀寫操作上也是會面臨許可權和路徑問題問題,先讓我們來看下這些都是些什麼問題。 這裡我先上傳了一個README.txt的檔案上去,通過hdfs dfs -ls /user/hadoop命令我們已經可以檢視到hdfs上有了這個檔案了
大資料開發學習路線圖
入門知識 推薦書籍 1、舍恩伯格的《大資料時代》; 2、巴拉巴西的《爆發》; 3、塗子沛的《大資料》; 4、吳軍《智慧時代》; 5、《大資料架構商業之路:從業務需求到技術方案》 工具技能 1、hadoop: 常用於離線的複雜的大資料處理 2、Spark:常用於離線
大資料開發----Hive(入門篇)
前言 本篇介紹Hive的一些常用知識。要說和網上其他manual的區別,那就是這是筆者寫的一套成體系的文件,不是隨心所欲而作。 本文所用的環境為: CentOS 6.5 64位 Hive 2.1.1 Java 1.8 Hive Arc
大資料開發----Fabric(入門篇)
一 前言 本篇介紹Fabric的一些常用知識。要說和網上其他manual的區別,那就是這是筆者寫的一套成體系的文件,不是隨心所欲而作。 二 安裝 Fabric現在支援Python2和Python3,安裝: pip install fabric pip i
職業發展之大資料開發工程師理解
大資料工程師需要具備哪些能力? (1)數學及統計學相關的背景; (2)計算機編碼能力; (3)對特定應用領域或行業的知識。 大資料工程師這個角色很重要的一點是,不能脫離市場,因為大資料只有和特定領域的應用結合起來才能產生價值。 所以,在某個或多個垂直行業的經歷能為應聘
零基礎怎麼學spark?大資料開發學習
隨著大資料時代的到來。各種技術衍生,市場工作崗位的需求越亦增長。今天科多大資料挑選大資料裡高頻技術詞彙“spark”跟大家分享。 spark 如何入手? 概述 Apache Spark是一個快速和通用的叢集計算系統。它提供Java,scala,Python、R語言的APIs,以及支援一
全網最牛乾貨!!! 年薪80萬的大資料開發【教程】讀完此文全掌握!!!
事實上,大資料工作者可以施展拳腳的領域非常廣泛,從國防部、網際網路創業公司到金融機構,到處需要大資料專案來做創新驅動。 其實JAVA工程師轉型大資料有著天然優勢,不僅僅是前景和薪資等。技術層面來說,大資料使用的Hadoop(在分散式伺服器叢集上儲存海量資料並執行分散式分析應用的一種方法)需要JA
學習大資料必須瞭解的大資料開發課程大綱
大資料開發最核心的課程就是Hadoop框架,幾乎可以說Hadoop就是大資料開發。這個框架就類似於Java應用開發的SSH/SSM框架,都是Apache基金會或者其他Java開源社群團體的能人牛人開發的貢獻給大家使用的一種開源Java框架。 Java語言是王道就是這個道理,Java的核心
接地氣,到底什麼才是大資料開發工程師?
最近發現有些同學並不太瞭解大資料開發工程師這個職位,自己轉大資料開發也已經三年了,所以想簡單介紹一下什麼是大資料開發工程師,當前網際網路公司的資料開發到底是什麼樣子的?和一般的java或者php工程師在工作上有什麼區別? 宣告:本文僅代表個人觀點,有不同意見歡迎提出。另外本文對大資料開發工程師沒什麼參考價值~
掌握Spark機器學習庫 大資料開發技能更進一步
掌握Spark機器學習庫 大資料開發技能更進一步 第1章 初識機器學習 在本章中將帶領大家概要了解什麼是機器學習、機器學習在當前有哪些典型應用、機器學習的核心思想、常用的框架有哪些,該如何進行選型等相關問題。 1-1 導學 1-2 機器學習概述 1-
學習大資料開發需要讀的書籍有哪些?大資料開發書籍推薦介紹
學習大資料少不了平時的技術經驗的積累,只有不斷的積累才能在熟能生巧中精益求精。 今天向大家推薦一批大資料書籍,大家可以在業餘的時候閱讀,加深對大資料的瞭解,分享給大家看看~ 1.資料之巔 內容簡介: 在《資料之巔》這本書中,從小資料時代到大資料的崛起,作者以巨集大的歷史觀、文化觀、大資料
大資料開發之Hadoop篇----pid檔案剖析
這裡我們先看下在我還沒有啟hdfs那三個程序的時候,/tmp目錄下的情況: 現在我啟動一下hdfs三個程序: 這個時候有沒發現在/tmp目錄下多出了幾個檔案 這幾個檔案記錄的是什麼呢? 儲存的就是namenode這個程序的程序號,當我們關掉這幾個程序後,在/t