1. 程式人生 > >10G的檔案,2G記憶體,統計出現頻率最高的數字

10G的檔案,2G記憶體,統計出現頻率最高的數字

記錄一個問題: 有一個10G大小的檔案,檔案內為一行一個的整數,給定可使用記憶體為2G.要求統計出現次數最多的數字。

1、流式資料處理(這塊後面單獨寫吧,埋坑....)

2、分檔案處理

      讀入部分檔案,對數值模10.取值相同放入一個檔案。然後處理10個檔案。統計出現次數最多的。

      我認為上面這種方案可以解決一種情況。就是檔案數值不重複。或者重複較少的情況

假設一種極端情況。檔案內容全部取模值全部相同。或者超過2G就不在適用上面的方法了。而更適合將相同的數字放入同一個檔案。

     情況不同解決方案也不盡相同。沒有銀彈