大資料面試一些問題
1、給你海量資料(大到記憶體遠不能滿足計算)的場景,讓你統計過濾排序等計算?
http://blog.csdn.net/v_july_v/article/details/7382693
2、關於資料結構和資料演算法的面試題?3、資料量達到pb(已經儲存到hbase,儲存到hbase都很難解決)級別,怎麼解決在前端快速的通過一條sql語句就能快速的查詢出來結果?
4、怎麼解決某一時間段內計算資料量突然變大問題?
5、怎麼解決hive查詢慢的問題?用presto或者優化hive
6、怎麼解決因爬蟲資料產生的統計指標虛高問題?
7、叢集規模、資料量規模、執行作業時間?
8、如何防止kafka丟失資料?
9、spark的優化?
待續
相關推薦
大資料面試一些問題
1、給你海量資料(大到記憶體遠不能滿足計算)的場景,讓你統計過濾排序等計算? http://blog.csdn.net/v_july_v/article/details/7382693 2、關於資料結構和資料演算法的面試題? 3、資料量達到pb(已經儲存到hbase,儲
大資料面試題目第二部分
簡要描述如何安裝配置apache的一個開源Hadoop,只描述即可,無需列出具體步驟,列出具體步驟更好。 準備三臺客戶機(配置IP,配置主機名…) 安裝jdk,安裝hadoop 配置JAVA_HOME和HADOOP_HOME 使每個節點上的環境變數
大資料面試題目第一部分
一 Linux Linux常用命令 CentOS檢視版本的命令 linux 檢視埠呼叫 linux命令 檢視記憶體 磁碟 io 埠 程序 使用Linux命令查詢file1裡面空行的所在行號 有檔案chengji.txt內容如下: 張三 40 李四 5
2018 大資料面試 內容事業部
baidu 介紹自己的專案 專案的資料量有多大 zookeeper在follower死掉後,如何重新選舉? hdfs的資料儲存和讀取過程? hdfs在資料儲存過程中,如何保證副本的資料一致性? 當時我沒想起來,於是被問道,如果是你設計,你會如何實現hdfs資料
2018年面試大資料面試資料結構總結
目錄 資料結構的定義 資料結構的分類 邏輯結構分類 物理結構分類 相關概念 時間複雜度 hash hash衝突 Java中的陣列結構 線性表 ArrayList LinkedList 連結串列 Java中的實現 Vector 棧和佇列
大資料面試真題整理
螞蟻金服面試題 小檔案的合併 MR與Spark的區別 關注哪些名人的部落格 對大資料領域有什麼自己的見解 平常怎麼學習大資料的 StringBuilder與StringBuffer的區別 HashMap與Hashtable的區別 談談你對
大資料面試(HR電話瞭解)
1什麼是HA叢集? 所謂HA,即高可用(7*24小時不中斷服務) HA叢集是hadoop高可用叢集,即有兩個namenode,一個active,一個stanby,active的name掛掉之後,stanby的namenode就會切換成active, 最關鍵的是消除單節點故障 雙namenode協調工作
2018大資料面試技巧:希望給予面試的夥伴門的必備技巧,祝你早日找到理想的工作
大資料相關的開發,最近考慮換工作,基本也只考慮大資料相關崗位。目前新工作已經找好,但想分享一下最近面試的失敗一些經歷(成功的那些就不講了),吐槽吐槽,跟廣大吃瓜群眾分享一下過程中的經歷心得,我的語文是歷史老師教的,還請大家莫怪。 1.公司:國內知名電信運營商,其下面的大資料研究院,面兩輪
大資料面試要點總結
首先是大牛的建議: 我覺得面試是否成功主要取決是否能讓面試官感覺到自己有專案經驗,而體現專案經驗呢,主要靠一些技術亮點,介紹專案時能說出一些技術亮點是很關鍵的,這些技術亮點應該是企業專案中的一個個解決方案,解決方案就是使用xx技術解決xx問題,比如使用threadlocal和攔截器解決分頁引
2018 大資料面試
大資料工程師(開發)面試 1.HBase和Hive都是基於Hadoop,為什麼Hive查詢起來非常慢,但HBase不是? Hive是類SQL引擎,其查詢都需要遍歷整張表,跑MapReduce自然很慢,但HBase是一種NoSQL的列式資料庫,基於Key/Valu
從面試官的角度談談大資料面試
關於傳授面試經驗的文章太多了,眼花繚亂,我這裡就不談了,點進來想獲取幾噸面試學習資料的同學,抱歉讓你失望了。(我是真的找不到那麼多資料...)。所以,今天我們只聊面試官。 作為一隻老鳥,我的面試經驗還算豐富,無論是作為面試者還是面試官。其實這篇對於面試者來說也是有意義的,畢竟知己知彼,百戰不殆,知道對方會
大資料的一些基本指令與基本配置
**一:git 命令** pwd 檢視當前所在檔案路徑 ls 檢視資料夾下檔案 mkdir 建立資料夾 touch 建立檔案 git s
大資料面試部分:MapReduce的工作原理
3.講述一下mapreduce的流程(shuffle的sort,partitions,group) 首先是 Mapreduce經過SplitInput 輸入分片 決定map的個數在用Record記錄 key value。然後分為以下三個流程: Map: 輸入 key(
最近做大資料面試官的感想
時間是不可逆的,我們不可能經歷之後,然後再返回來修正自己過去的行為,但是我們可以通過觀察不同時間段的相同職業人的現狀來修正自己。 最近一段時間,浪尖忙於招人面試,在面試別人的過程中收穫了很多,我相信被我面試的人也會收穫很多。 面試者的工作經驗有十年以上的,有五六年,還有兩三年的,每個年齡段都
大資料面試總結
1.spark面試題: https://blog.csdn.net/wodwl/article/details/83301422 2.大資料學習題庫: http://www.k6k4.com/simple_question/qlist?cat1=4 3.java面試常見問題
JAVA與大資料面試總結(二)
Java基礎知識 Java中常用演算法:冒泡、選擇、快速 冒泡:兩兩比較,每一輪(0~length-i)挑出一個最值,並將其移除,迴圈遍歷1~length 選擇:外面定義從0~length-1,先選定一個最先面的下目標作為最小下標,將其所對應的值逐一與其他比較,如果
大資料的一些基本概念
一、什麼是大資料?大資料的特點? 大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。 大資料的5V特點(IB
關於大資料的一些個人理解
一般網站大概幾TB的資料量,這個數量級用mysql這樣傳統的資料庫還ok, 但如果再大,查詢起來就很慢,如果你想搜尋個關鍵詞,等半小時出不來結果,就很鬱悶。 所以大資料經常是上百TB,PB這樣的量級,並且用傳統的方法不能快速處理,必須用分散式的計算與儲存方法, 這樣才好意思說自己是大資料,這是其一。 其二,
大資料面試-01-大資料工程師面試題
1. 選擇題 1.1. 下面哪個程式負責 HDFS 資料儲存。 c)Datanode 答案 C datanode 1.2. HDfS 中的 block 預設儲存幾份? a)3 份 答案 A 預設 3 份 1.3. 下列哪個
對於大資料的一些處理方法
問題:資料太大,在記憶體中無法一次性裝入。 題1:給定一個大小超過100億的檔案,該檔案是用來儲存IP地址,找到出現次數最多的IP地址。 分析:100億就是大約就是10G,對於現在的計算機而言,記憶體中無法容納這麼大的檔案。 解決:將一個大檔案切分為多個小