大資料面試題及答案 2018
阿新 • • 發佈:2019-01-25
1. java記憶體模型
2.gc
3.編譯好的scala程式,執行時還需要scala環境嗎
Scala的程式碼執行是用REPL過程,ReadExecute Print Loop
4.object中有哪些方法
5.監測叢集中的cpu,記憶體使用情況?
6、ArrayList中的Array長度超了是怎麼增加的,一次增加多少?
---------------------------------------------------
linux的啟動順序
通電後讀取ROM的BIOS程式進行硬體自檢,自檢成功後把計算機控制權交給BIOS中BOOTsequence中的下一個有效裝置,讀取該裝置MBR找到作業系統,載入linux的bootloader,一般是grub。之後載入kernel,執行 /etc/rc.d/sysinit ,開啟其他元件(/etc/modules.conf),執行執行級別,執行/etc/rc.d/rc.local ,執行/bin/login,最後shell啟動。
使用過的開源框架介紹
Struts2
Spring
hibernate
mybatis
hadoop
hive
hbase
flume
sqoop
Zookeeper
Mahout
Kafka
Storm
Spark
擅長哪種技術
Hadoop。介紹
HIVE的優化
底層是MapReduce,所以又可以說是MapReduce優化。
1. 小檔案都合併成大檔案
2. Reducer數量在程式碼中介於節點數*reduceTask的最大數量的0.95倍到1.75倍
3. 寫一個UDF函式,在建表的時候制定好分割槽
4. 配置檔案中,開啟在map端的合併
開發中遇到的問題
Hbase節點執行很慢,發現是Hfile過小,hbase頻繁split。
修改了hfile大小。或者設定major compack設定為手動
Major compack設定為手動會出現什麼問題
?
Zookeeper的二次開發
Flume 的實時和定時資料採集,專案和flume的解耦
Mogodb和hbase的區別
Mogodb是單機
Hbase是分散式??