1. 程式人生 > >Kafka相比於HDFS的優勢

Kafka相比於HDFS的優勢

今天看到了一個面試題,“資料為什麼不直接採集到HDFS,而是採集到Kafka中”,覺得蠻經典了,整理了一下:

個人總結了四點:

1、實時性:hdfs的實時性沒有kafka高。

2、消費量的記錄:hdfs不會記錄你這個塊檔案消費到了哪裡,而基於zookeeper的kafka會記錄你消費的點。

3、併發消費:hdfs不支援併發消費,而kafka支援併發消費,即多個consumer.

4、彈性且有序:當資料量會很大,而且處理完之後就可以刪除時,頻繁的讀寫會對hdfs中NameNode造成很大的壓力。而kafka的消費點是記錄在zookeeper的,並且kafka的每條資料都是有“座標”的,所以消費的時候只要這個“座標”向後移動就行了,而且刪除的時候只要把這個“座標”之前的資料刪掉即可。