用Liunx統計檔案行數,切分、對id進行排序,去重(wc,head,sort,uniq)!
阿新 • • 發佈:2020-12-13
如下我們遇到一個檔案2G以上
文字編輯相互甩鍋:
此時內心很崩潰,但是我們先看一下檔案一共有多少行。
統計檔案的行數可以用以下命令:wc -l 檔名
wc -l lesson_20201205.log
1200多萬行資料。
然後用 head -n 檔名 > 新檔案
$ head -1000000 lesson_20201205.log > lesson_20201205_100.log
然後得到 一個163M的100萬行資料
接下來我們把log中的使用者Id取出來,發現很多重複的。
此時我們肯定不能用把這些id複製到Excel中,然後選擇去重。
我們肯定要用程式設計師的方法來解決。
我們用cat 檔名| sort |uniq >去重後的檔名
$ cat lesson_id_100.log | sort |uniq >lesson_id_100_uniq.log
然後我們就得到了去重後切以升序儲存的檔案。
完事!