匯入搜狗實驗室新聞語料庫
阿新 • • 發佈:2019-02-13
在搜狗實驗室下載的新聞語料庫中儲存的一條新聞的資料格式是
<doc>
<url></url>
<docno></docno>
<contenttitle></contenttitle>
<content></content>
</doc>
多條新聞資料就是多個doc的重複
<doc>
<url></url>
<docno></docno>
<contenttitle ></contenttitle>
<content></content>
</doc>
<doc>
<url></url>
<docno></docno>
<contenttitle></contenttitle>
<content></content>
</doc>
這種文字檔案不是標準的xml檔案,沒有根節點。因此要新增根節點使該文字檔案符合xml檔案的規範。
但是用notepad++開啟後,notepad++就無響應了,過了一會提示檔案過大。
然後又嘗試用vim開啟,仍然非常卡,但是可以在檔案開頭寫入字元,在最上面加入,然後用G命令跳到底部。這時vim也無響應了。
最後我想到可以windows的copy命令將文字檔案與語料檔案合併來在檔案的頭部和尾部新增文字。
通過合併文字在文字的前後新增字元
- 新建一個文字檔案head.txt寫入
<docs>
- 新建一個文字檔案end.txt寫入
</docs>
- 用copy命令合併文字
copy /b head.txt + ..\news_sohusite_xml_full.xml + end.txt canbeimport.xml
此時生成的文字就是一個有docs根節點的標準xml文件了。可以用navicat
匯入mysql。
具體操作方法可以參考這個部落格 http://blog.csdn.net/zml_2015/article/details/50885406
注意在選擇編碼的時候要根據文字的編碼選擇。