大資料學習之ubuntu的基礎操作
時隔兩個星期,學習了和複習了大資料的一些基本操作,第一系列是ubuntu的基礎!
基礎涉及到:
1.virtualBOX的安裝和使用
2.FTP工具傳輸
3.root使用者密碼設定和vim的安裝
4.建立使用者並設定許可權:這裡使用Hadoop使用者
5.ssh免密碼登入的設定
6.Java環境的安裝和配置
7.檔案許可權的修改和操作
相關推薦
大資料學習之ubuntu的基礎操作
時隔兩個星期,學習了和複習了大資料的一些基本操作,第一系列是ubuntu的基礎! 基礎涉及到: 1.virtualBOX的安裝和使用 2.FTP工具傳輸 3.root使用者密碼設定和vim的安裝 4.建立使用者並設定許可權:這裡使用Hadoop使用者 5
大資料學習之Hbase shell的基本操作
HBase的命令列工具,最簡單的介面,適合HBase管理使用,可以使用shell命令來查詢HBase中資料的詳細情況。安裝完HBase之後,啟動hadoop叢集(利用hdfs儲存),啟動zookeeper,使用start-hbase.sh命令開啟hbase服務,最後在shel
大資料入門之Hadoop基礎學習
開發十年,就只剩下這套架構體系了! >>>
大資料學習之SPARK計算天下
學習大資料技術,SPARK無疑是繞不過去的技術之一,它的重要性不言而喻,本文將通過提問的形式圍繞著SPARK進行介紹,希望對大家有幫助,與此同時,感謝為本文提供素材的科多大資料的武老師。 為了輔助大家更好去了解大資料技術,本文集中討論Spark的一系列技術問題,大家在學習過程中如果遇到困難,可以
大資料學習之小白如何學大資料?(詳細篇)
大資料這個話題熱度一直高居不下,不僅是國家政策的扶持,也是科技順應時代的發展。想要學習大資料,我們該怎麼做呢?大資料學習路線是什麼?先帶大家瞭解一下大資料的特徵以及發展方向。 大資料的三個發展方向,平臺搭建/優化/運維/監控、大資料開發/設計/架構、資料分析/挖掘。 先說一下大資料的4V特徵: 資料
大資料學習之HDP SANDBOX開始學習
大資料學習之HDP SANDBOX開始學習 2017年05月07日 17:33:45 三名狂客 閱讀數:2167 HDP HDP是什麼? HDP全稱叫做Hortonworks Data Platform。 Hortonworks資料平臺是一款基於Apa
大資料學習之路87-SparkSQL的執行結果以不同方式寫出,及載入
我們可以將我們之前寫的wordcount的結果寫成各種格式: csv格式: 程式碼如下: package com.test.SparkSQL import org.apache.avro.generic.GenericData.StringType import org.apach
大資料學習之路91-Hadoop的高可用
我們之前一直沒有配置過hadoop的高可用,今天我們就來配置一下 之前我們的namenode只要一掛,則整個hdfs叢集就完蛋。雖然我們可以通過重啟的方式來恢復,可是我們重啟好之前,我們的hdfs叢集就不能提供服務了。所以它存在單點故障問題。 我們可以設定兩臺namenode ,一臺為a
大資料學習之路90-sparkSQL自定義聚合函式UDAF
什麼是UDAF?就是輸入N行得到一個結果,屬於聚合類的。 接下來我們就寫一個求幾何平均數的一個自定義聚合函式的例子 我們從開頭寫起,先來看看需要進行計算的數如何產生: package com.test.SparkSQL import java.lang import org
大資料學習之路89-sparkSQL自定義函式計算ip歸屬地
使用sparkSQL當遇到業務邏輯相關的時候,就有可能會搞不定。因為業務l邏輯需要寫很多程式碼,呼叫很多介面。這個時候sql就搞不定了。那麼這個時候我們就會想能不能將業務邏輯嵌入到sql中? 這種就類似於我們在hive中使用過的自定義函式UDF(user define function使用者
大資料學習之路95-SparkStreaming寫WordCount
程式如下: package com.test.sparkStreaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming
大資料學習之路94-kafka叢集安裝
解壓 Kafka 安裝包 修改配置檔案 config/server.properties vi server.properties broker.id=0 //為依次增長的:0、1、2、3、4,叢集中唯一id log.dirs=/kafkaData/logs // Kafka
大資料學習之路93-kafka簡介
kafka是實時計算中用來做資料收集的,它是一個訊息佇列。它使用scala開發的。 那麼我們就會想我們這裡能不能用hdfs做資料儲存呢?它是分散式的,高可用的。 但是它還缺少一些重要的功能:比如說我們往hdfs中寫資料,之後我們需要實時的讀取。當我們讀到某一行的時候斷掉了,假如說這個讀取
大資料學習之路92-sparkSQL整合hive
我們知道sparkSQL跟hive是相容的,他支援hive的元資料庫,sql語法,多種型別的UDF, 而且還支援hive的序列化和反序列化方式,意思就是hive寫的自定義函式,spark拿過來就能用。 最重要的就是MetaStore元資料庫,以後一旦我們使用hive的Meta
大資料學習之路98-Zookeeper管理Kafka的OffSet
我們之前的OffSet都是交給broker自己管理的,現在我們希望自己管理。 我們可以通過zookeeper進行管理。 我們在程式中想要使用zookeeper,那麼就肯定會有api允許我們操作。 new ZKGroupTopicDirs() 注意:這裡使用客戶端的時候導包為:
大資料學習之路97-kafka直連方式(spark streaming 整合kafka 0.10版本)
我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。 接下來我們使用Kafka直連的方式,這種方式其實是呼叫Kafka底層的消費資料的API,我們知道,越底層的東
大資料學習之路96-SparkStreaming整合Kafka
我們前面SparkStreaming獲取資料的來源是TCP,但是平常是不會這麼用的,我們通常用的是Kafka。 SparkStreamingContext是不直接提供對Kafka的訪問的。 這個時候就有KafkaUtils 這裡有兩個方法 1.createDirectStream
大資料學習之路103-redis的分片代理
哨兵的出現是為了實現主節點的HA,那麼從節點會不會出現問題呢? 假如所有的讀取操作都在從節點6380上,那麼6380節點就會很累,而6381節點就會很清閒。 這個時候就需要負載均衡,我們這裡的負載均衡需要通過代理伺服器來實現。我們可以將需要訪問的從節點的位置配置在代理伺服器上。
大資料學習之路102-redis的哨兵機制
哨兵的HA會通過修改配置檔案來實現主節點的切換。 只有主節點有寫許可權,從節點只能讀。 我們接下來實驗一下: 首先我們將redis的三個埠的服務啟動起來: 然後我們啟動哨兵: 接下來我們強制將主節點關掉,看哨兵會做什麼事? 我們可以看到此時的
大資料學習之路101-redis的持久化詳解及主從複製
接下來我們配置一下主從結構的星型模型: 首先將配置檔案複製3份, 然後修改主節點的配置檔案: 首先關閉RDB: 然後關閉AOF: 修改第二個配置檔案: 先修改埠,他不能和主節點的埠衝突: 為了區分是哪個節點打的日誌,我們還需要