1. 程式人生 > >資料處理經驗總結·大資料檔案處理參考值

資料處理經驗總結·大資料檔案處理參考值

列印在控制檯的字串型別如果兩邊帶有引號的話,說明字串儲存的時候就有引號。

經驗:在對大測試資料進行轉化前,先自己編寫樣例資料檔案,確保樣例資料檔案對所有測試物件(資料庫)能跑通,本質上是確保1、原始資料能夠轉換出我們要的各種資料;2、轉換出的各種資料能夠適用各種物件,關鍵是1,然後再程式設計對大測試資料進行統一轉化。

三元組語義網資料處理時間和資源估算

4g文字檔案,Java按行讀寫進行簡單處理大約需要2.5天。

4g文字檔案,56GB系統記憶體,20GB堆記憶體。 全部先讀入List<String[]>,一行對應一個String[],讀入階段CPU使用100%,然後所有List<String[]>裡的內容進行簡單處理後拼接進入一個StringBuilder(). 在整個過程的某個階段,會OutOfMemory.