DL4J中文文件/語言處理/Tokenization
阿新 • • 發佈:2018-11-19
什麼是分詞?
分詞是將文字分解成單個單詞的過程。單詞視窗也是由片語成。 Word2Vec還可以輸出文字視窗,這些文字視窗包括用於輸入神經網路中的訓練示例,如本文所見。
示例
下面是一個用DL4J工具進行分詞的例子:
//帶有詞形還原,詞性標註,句子分割的分詞 TokenizerFactory tokenizerFactory = new UimaTokenizerFactory(); Tokenizer tokenizer = tokenizerFactory.tokenize("mystring"); //迭代 while(tokenizer.hasMoreTokens()) { String token = tokenizer.nextToken(); } //得到詞的整個列表 List<String> tokens = tokenizer.getTokens();
上面的程式碼段建立了一個能夠詞幹提取的分詞器。
在Word2Vec中,那是建立詞彙表的推薦方法,因為它避免了各種詞彙上的巧合,例如同一名詞的單數和複數被計算為兩個不同的單詞。