大資料面試（HR電話瞭解）

阿新 • • 發佈：2018-11-29

1什麼是HA叢集？

所謂HA，即高可用（7*24小時不中斷服務）

HA叢集是hadoop高可用叢集，即有兩個namenode，一個active，一個stanby，active的name掛掉之後，stanby的namenode就會切換成active，

最關鍵的是消除單節點故障

雙namenode協調工作的要點：

　　　A、元資料管理方式需要改變：

　　　　記憶體中各自儲存一份元資料

　　　　Edits日誌只能有一份，只有Active狀態的namenode節點可以做寫操作

　　　　兩個namenode都可以讀取edits

　　　　共享的edits放在一個共享儲存中管理（qjournal和NFS兩個主流實現）

　　　B、需要一個狀態管理功能模組

　　　　實現了一個zkfailover，為一個守護程序，常駐在每一個namenode所在的節點

　　　　每一個zkfailover負責監控自己所在namenode節點，利用zk進行狀態標識

　　　　當需要進行狀態切換時，由zkfailover來負責切換

　　　　切換時需要防止brain split現象的發生（腦裂）

2HA的兩個namenode之間是怎麼進行切換的？

　　　　實現了一個zkfailover，為一個守護程序，常駐在每一個namenode所在的節點

　　　　每一個zkfailover負責監控自己所在namenode節點，利用zk進行狀態標識

　　　　當需要進行狀態切換時，由zkfailover來負責切換

　　　　切換時需要防止brain split現象的發生（腦裂）

3.yarn包括了什麼？

YARN 分層結構的本質是 ResourceManager。這個實體控制整個叢集並管理應用程式向基礎計算資源的分配。

ResourceManager 還與 ApplicationMaster 一起分配資源，與 NodeManager 一起啟動和監視它們的基礎應用程式。

ApplicationMaster 管理一個在 YARN 內執行的應用程式的每個例項。ApplicationMaster 負責協調來自 ResourceManager 的資源，

並通過 NodeManager 監視容器的執行和資源使用 (CPU、記憶體等的資源分配）。

NodeManager 管理一個 YARN 叢集中的每個節點。NodeManager 提供針對叢集中每個節點的服務，從監督對一個容器的終生管理到監視資源和跟蹤節點健康。

4.hive的sql語句你掌握多少？

5.hive的資料儲存在哪裡？

Hive的資料分為表資料（資料來源）資料，

表資料是Hive中表格(table)具有的資料;

而元資料是用來儲存表的名字，表的列和分割槽及其屬性，表的屬性(是否為外部表等)，表的資料所在目錄等

資料來源儲存在HDFS上，元資料存在在mysql中

6.hive的資料可以匯出到哪裡？

1.匯出到本地檔案系統。

2.匯出到HDFS中；

3.匯出到Hive的另外一個表中。

4.hive與hbase整合，把資料匯入hbase

5.將資料打出到HDFS，在通過sqoop將資料匯出到mysql

7.flume是幹嘛的？

flume的三大元件：Sources(輸入埠)，Channle(管道或傳輸頻道)，Sink(輸出埠)

還可以配合攔截器

flume負責採集資料，如日誌檔案，普通檔案等

把資料採集到控制檯，HDFS，hive，hbase等

8.設定了幾個副本？

沒有設定，預設為3個

大資料面試（HR電話瞭解）

1什麼是HA叢集？所謂HA，即高可用（7*24小時不中斷服務） HA叢集是hadoop高可用叢集，即有兩個namenode，一個active，一個stanby，active的name掛掉之後，stanby的namenode就會切換成active，最關鍵的是消除單節點故障雙namenode協調工作

大資料測試（開源優測）

什麼是BI？ BI（Business Intelligence）即商務智慧，它是一套完整的解決方案，用來將企業中現有的資料（原始資料或商業資料或業務資料等）進行有效的整合，快速準確地提供報表並提出決策依據，幫助企業做出明智的業務經營決策。原始資料記錄了企業日常事

2018中國高校計算機大賽——大資料挑戰賽（合作方：快手）

賽程安排本次大賽分為初賽、複賽和決賽三個階段，其中初賽均由參賽隊伍下載資料在本地進行演算法設計和除錯，並通過大賽報名官網提交結果檔案；複賽要求參賽者在科賽網的K-Lab平臺上進行資料分析和處理，可使用平臺提供的計算資源和工具包；決賽要求參賽者進行現場演示和答辯。初賽（5月26日—6月30日）

2018中國高校計算機大賽—大資料挑戰賽（top2解題方案）

經過激烈的競爭，從倆千多人，一千二百多支隊伍，從初賽到複賽再到決賽的答辯，最終拿到了第二的名次，雖然有點遺憾，但參加這個比賽收穫了很多，對大資料領域又有了新的認識，在過程中，最重要的是堅持，有新的想法要敢於嘗試。總結一下，個人覺得資料探勘類的題目更多的應該先去了解資料，理

PayPal高階工程總監：讀完這100篇論文就能成大資料高手（附論文下載）

Big Data technology has been extremely disruptive with open source playing a dominant role in shaping its evolution. While on one hand it has been disrup

元資料與資料治理｜大資料治理（第九篇）

魅族大資料平臺的一個技術分享活動,話題是《大資料治理之路》.魅族大資料平臺工作人員分享了一些他們的大資料治理經驗,很有內容。首先,他們整理了一個治理流程,架構圖然後，依照架構圖，大致講了架構圖中的每個模組，以及將模組串聯起來的一個管理流程，流程圖如下：然

java 中的大資料型別（BigInteger和BigDecimal）

一、為什麼為用到BigInteger和BigDecimal這種資料型別呢？我們非常清楚，java裡面整型int與浮點型float,double它們存放資料的範圍是有邊界的。那麼如果需要更大的資料時，這些資料型別肯定是滿足不了這種需求，所以就用到了BigInteger和BigDecimal來解決

一文帶你快速瞭解最火的數字經濟（大資料、人工智慧等都有）

人工智慧行業應用加速（暴富機會由“網際網路+”轉向AI+） “網際網路+”紅利已開發將盡，未來，新的暴富紅利將由“人工智慧”接棒。從產業演進看，科技巨頭正加速全球化併購，打造AI生態閉環，開源化也將成為全球性趨勢。開源化使得人工智慧的行業運用門檻急遽降低，未來幾年將迎來人工智慧行業應用浪潮。 2

JAVA與大資料面試總結（二）

Java基礎知識 Java中常用演算法：冒泡、選擇、快速冒泡:兩兩比較，每一輪（0~length-i）挑出一個最值，並將其移除，迴圈遍歷1~length 選擇：外面定義從0~length-1，先選定一個最先面的下目標作為最小下標，將其所對應的值逐一與其他比較，如果

大資料工程師（開發）面試系列（7）

MapReduce 1. 不指定語言，寫一個WordCount的MapReduce 我：最近剛學了scala，並且就有scala版本的WordCount，剛好學以致用了一下： 2. 上

蘇先生之大資料面試經驗總結（二）

1、flume與kafka的區別 flume適合做日誌採集，可以定製多種資料來源，減少開發量；而kafka是分散式訊息處理的中介軟體，自帶儲存功能，適合做日誌快取；flume主要用於將資料往HDFS、HBASE傳送；如果涉及多個系統的使用，可以選擇用kafka

大資料工程師（ETL）面試系列（1）

1. 你覺得Spark和Hadoop的區別是什麼,請簡要說一說？我：Hadoop適合離線分析，是批處理；Spark適合實時分析，是近實時流，微批處理。 2. 你覺得Python和Java在使用

大資料基礎（1）zookeeper原始碼解析

五原始碼解析 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING;}zookeeper伺服器狀態：剛啟動LOOKING，follower是FOLLOWING，leader是LEADING，observer是

大資料導論（4）——OLTP與OLAP、資料庫與資料倉庫

公司內部的資料自下而上流動，同時完成資料到資訊、知識、洞察的轉化過程。而企業內部資料，從日常OLTP流程中產生，實時儲存進不同的資料庫中。同時定期被提取、經格式轉化、清洗和載入（ETL），以統一的格式儲存進資料倉庫，以供決策者進行OLAP處理，並將處理結果視覺化。 OLTP & OLAP 企業

大資料選擇題（二）

1.which among the following command is used to copy a directory from one node to another in HDFS? 1.rcp 2.distcp √

hadoop 大資料實戰（2）mongodb安裝

mongodb-win32-x86_64-2008plus-ssl-4.0.3.zip 1、下載地址： https://www.mongodb.com/download-center 2、配置 1.建立路徑，C:\mongodb 2.在C:\mongodb下減壓下載的zip檔案，然後在C

大資料學習之小白如何學大資料？（詳細篇）

大資料這個話題熱度一直高居不下，不僅是國家政策的扶持，也是科技順應時代的發展。想要學習大資料，我們該怎麼做呢？大資料學習路線是什麼？先帶大家瞭解一下大資料的特徵以及發展方向。大資料的三個發展方向，平臺搭建/優化/運維/監控、大資料開發/設計/架構、資料分析/挖掘。先說一下大資料的4V特徵：資料

中國旅遊研究院：2018中日韓旅遊大資料報告（附下載）

報告下載：新增199IT官方微信【i199it】，回覆關鍵詞【2018中日韓旅遊大資料報告】即可！報告下載：新增199IT官方微信【i199it】，回覆關鍵詞【20

大資料入門（4）hdfs的shell語法

1、測試hdfs檔案上傳和下載（HDFS shell） 1.0檢視幫助 hadoop fs -help <cmd> 1.1上傳 &n

大資料入門（3）配置hadoop

1、上傳hadoop-2.4.1.tar.gz 2、解壓檔案到指定目錄(目錄：admin/app) mkdir app tar -zxvf hadoop-2.4.1.tar.gz -C /app 刪

大資料面試（HR電話瞭解）

相關推薦