1. 程式人生 > >wikipedia 維基百科 語料 獲取 與 提取 處理 by python3.5

wikipedia 維基百科 語料 獲取 與 提取 處理 by python3.5

維基 spa name open 命令 XML window 需要 rac

英文維基百科

https://dumps.wikimedia.org/enwiki/

中文維基百科

https://dumps.wikimedia.org/zhwiki/

全部語言的列表

https://dumps.wikimedia.org/backup-index.html

提取處理可以使用 wikiextractor提取正文(由於網頁數量太多,結構又很紛亂,提取出來的會有少許瑕疵,再處理即可)

https://github.com/attardi/wikiextractor

運行命令: python WikiExtractor.py -b 500M -o output_file_name input_file_name.xml

Notice:

1. 建議處理解壓後的文件

2. 如果在windows 下面跑,需要設置 fileinput.FileInput() 參數使用 utf-8 編碼,如下:

input = fileinput.FileInput(input_file, openhook=fileinput.hook_encoded("utf-8"))

會沖掉原來的設置(跟壓縮文件類型相關?):fileinput.FileInput(openhook=fileinput.hook_compressed)

參考:https://docs.python.org/3.5/library/fileinput.html

wikipedia 維基百科 語料 獲取 與 提取 處理 by python3.5