如何自動檢測一段文字的語言

阿新 • • 發佈：2019-01-29

學習自然語言處理有一段時間了，其實我做的無非就是一些表面功夫，學到最後，還是機器學習頂用。

如題，最近在做一個課題，需要檢測一段文字的語言，去掉非英文的文字。

我搜集了一些資料，總結一下：

需要用到Python，以及NLTK包，你可以pip install nltk。

原文在這裡：http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/

首先我把程式碼貼下來（作者年代久遠，我修改成3.X版本的語法）：

from nltk import wordpunct_tokenize
from nltk.corpus import stopwords
def _calculate_languages_ratios(text):
languages_ratios = {}
tokens = wordpunct_tokenize(text)
words = [word.lower() for word in tokens]
for language in stopwords.fileids():
stopwords_set = set(stopwords.words(language))
words_set = set(words)
common_elements = words_set.intersection(stopwords_set)
languages_ratios[language] = len(common_elements) # language "score"
return languages_ratios
def detect_language(text):
ratios = _calculate_languages_ratios(text)
most_rated_language = max(ratios, key=ratios.get)
return most_rated_language
if __name__ == '__main__':
content = '''
Es lo mejor para idiomas aunque me gustaría que ya viniera aplicado en vez de tanto chouu
'''
language = detect_language(content)
print(language)

不想知道原理的，可以直接把程式碼COPY過去。

其實原理很簡單，就是按照句子切詞，然後統計停用詞的頻率，算出一個比例，比例最大，就把該段文字判斷為何種型別。

這種方法比較精巧，我估計精確度可以達到70%以上，假如要提高準確性，我們必須得用到Machine Learning的知識，訓練一些樣本。至於這個演算法怎麼設計，我個人能力有限，有興趣的可以聯絡我，我們可以一起深入探討。

如何自動檢測一段文字的語言

如何自動檢測一段文字的語言

js小技巧：複製內容時自動加上一段文字

Xshell用鼠標選中一段文字後自動換行的問題

原生JS在網頁上覆制的所有文字後面自動加上一段版權宣告

一段C語言和彙編的對應分析，揭示函式呼叫的本質

QTextEdit實現選中某一段文字

Java正則表示式過濾、替換，將一段文字中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

android實現一段文字中不同顏色

用python匹配一段文字中的所有中文

jmu-Java&Python-統計一段文字中的單詞個數並按單詞的字母順序排序後輸出

判斷一段文字具體長度為多少px

取出html程式碼中的一段文字去除html標籤

react 簡單在頁面中輸出一段文字

Java 寫一個方法判斷一個字串是否對稱 "asdfgasdfg"、編寫一個程式，將下面的一段文字中的各個單詞的字母順序翻轉，

android studio中顯示一段文字文字TextView

有一段文字，將文字中的所有單詞，存放到一個字元指標陣列中（要求每個單詞記憶體恰好）

Android ScrollView自動滑動一段距離的問題解決

一段文字中插入一張圖片（lable，textview為例）

UILabel設定一段文字不同顏色和不同大小

word中如何在一段文字中部分為標題，其餘為正文

如何自動檢測一段文字的語言

相關推薦