1. 程式人生 > >大資料面試一些問題

大資料面試一些問題

1、給你海量資料(大到記憶體遠不能滿足計算)的場景,讓你統計過濾排序等計算?

http://blog.csdn.net/v_july_v/article/details/7382693

2、關於資料結構和資料演算法的面試題?

3、資料量達到pb(已經儲存到hbase,儲存到hbase都很難解決)級別,怎麼解決在前端快速的通過一條sql語句就能快速的查詢出來結果?

4、怎麼解決某一時間段內計算資料量突然變大問題?

5、怎麼解決hive查詢慢的問題?用presto或者優化hive

6、怎麼解決因爬蟲資料產生的統計指標虛高問題?

7、叢集規模、資料量規模、執行作業時間?

8、如何防止kafka丟失資料?

9、spark的優化?

待續