1. 程式人生 > >對搜狗語料庫進行想要格式編碼的處理

對搜狗語料庫進行想要格式編碼的處理

1. 下載資料

搜狗語料庫:http://www.sogou.com/labs/resource/cs.php,下載解壓.

2. 資料編碼處理

在ubuntu環境下,編寫一個sh檔案:

find ./ -type f -name "*.txt"|while read line;do
echo $line
iconv -f gb18030 -t UTF-8 $line > ${line}.utf8
mv $line ${line}.gb2312
mv ${line}.utf8 $line
done

儲存為process.sh

執行:

結果為:

3. 資料清洗

 

reference:

https://blog.csdn.net/sgfmby1994/article/details/53436228