wikipedia 維基百科 語料 獲取 與 提取 處理 by python3.5
阿新 • • 發佈:2017-10-27
維基 spa name open 命令 XML window 需要 rac
英文維基百科
https://dumps.wikimedia.org/enwiki/
中文維基百科
https://dumps.wikimedia.org/zhwiki/
全部語言的列表
https://dumps.wikimedia.org/backup-index.html
提取處理可以使用 wikiextractor提取正文(由於網頁數量太多,結構又很紛亂,提取出來的會有少許瑕疵,再處理即可)
https://github.com/attardi/wikiextractor
運行命令: python WikiExtractor.py -b 500M -o output_file_name input_file_name.xml
Notice:
1. 建議處理解壓後的文件
2. 如果在windows 下面跑,需要設置 fileinput.FileInput() 參數使用 utf-8 編碼,如下:
input = fileinput.FileInput(input_file, openhook=fileinput.hook_encoded("utf-8"))
會沖掉原來的設置(跟壓縮文件類型相關?):fileinput.FileInput(openhook=fileinput.hook_compressed)
參考:https://docs.python.org/3.5/library/fileinput.html
wikipedia 維基百科 語料 獲取 與 提取 處理 by python3.5