1. 程式人生 > >匯入搜狗實驗室新聞語料庫

匯入搜狗實驗室新聞語料庫

在搜狗實驗室下載的新聞語料庫中儲存的一條新聞的資料格式

<doc>
    <url></url>
    <docno></docno>
    <contenttitle></contenttitle>
    <content></content>
</doc>

多條新聞資料就是多個doc的重複

<doc>
    <url></url>
    <docno></docno>
    <contenttitle
>
</contenttitle> <content></content> </doc> <doc> <url></url> <docno></docno> <contenttitle></contenttitle> <content></content> </doc>

這種文字檔案不是標準的xml檔案,沒有根節點。因此要新增根節點使該文字檔案符合xml檔案的規範。

但是用notepad++開啟後,notepad++就無響應了,過了一會提示檔案過大。
然後又嘗試用vim開啟,仍然非常卡,但是可以在檔案開頭寫入字元,在最上面加入,然後用G命令跳到底部。這時vim也無響應了。

最後我想到可以windows的copy命令將文字檔案與語料檔案合併來在檔案的頭部和尾部新增文字。

通過合併文字在文字的前後新增字元

  • 新建一個文字檔案head.txt寫入
<docs>
  • 新建一個文字檔案end.txt寫入
</docs>
  • 用copy命令合併文字
copy /b  head.txt + ..\news_sohusite_xml_full.xml  + end.txt  canbeimport.xml

這裡寫圖片描述

此時生成的文字就是一個有docs根節點的標準xml文件了。可以用navicat
匯入mysql。
具體操作方法可以參考這個部落格

http://blog.csdn.net/zml_2015/article/details/50885406
注意在選擇編碼的時候要根據文字的編碼選擇。