NLP-統計語言模型
阿新 • • 發佈:2019-05-12
衡量 dot 形式 文檔 word2vec -i 其中 方式 rod
概念  統計語言模型是描述自然語言內在規律的數學模型。廣泛應用於各種語言處理問題,如語音識別、機器翻譯、分詞、詞性標註等。統計模型就是用來計算一個句子的概率模型。$n-gram$  語言模型(language model)定義了自然語言中標記序列的概率分布。根據模型的設計,標記可以是詞、字符甚至是字節。標記總是離散的實體。最早成功的語言模型基於固定長度序列的標記模型,稱為$n-gram$。一個$n-gram$是一個包含$n$個標記的序列。$n-gram$模型定義的條件概率  給定前$n-1$個標記後的第$n$個標記的條件概率。  $P\left ( x_{1} ,\cdots ,x_{T}\right )=P\left ( x_{1} ,\cdots ,x_{n-1}\right )\prod_{t=n}^{T}P\left ( x_{t}\mid x_{t-n+1},\cdots ,x_{t-1} \right )$ 3.詞幹提取  是指對一個單詞去掉後綴,還原為詞本身。4.詞形還原  是指同一單詞不同形式的識別,將單詞還原為標準形式。5.詞袋模型  用來將文本轉換成數值向量的表示形式。方式為將每個文檔構建一個特征向量,其中包含每個單詞在文檔中出現的次數。6.TF-IDF  TF-IDF=TF(詞頻)*IDF(逆文檔頻率)  TF(Term Frequency):詞頻統計,對文章中詞語出現的頻率進行計數統計。   $TF=\frac{當前文檔中單詞出現的次數}{當前文檔中包含的單詞總數}$   大眾詞出現的次數多,也不應該認為是重要的,因為在其它文檔中出現的次數也多。為了更好的衡量大眾詞的價值,可用IDF來解決。  IDF(Inverse Document Frequency):逆文檔頻率,指的是語料庫中文檔總數與語料庫中包含該詞的文檔數,二者比值的對數(log)。   $IDF=log\left ( \frac{語料庫中文檔總數}{語料庫中包含該詞的文檔數+1} \right )$ 舉個例子:   昨夜 星辰 昨夜風   小馬過河   昨夜房上看月亮   明天又是另外一天了   "昨夜"在第一個文檔中出現了2次,第一個文檔總共包含4個詞,總共存在4個文檔,故 $TF=\frac{2}{4}$ , $IDF=log\left ( \frac{4}{2+1} \right )$   "昨夜"的TF-IDF值為:$0.5\times log\left ( 4/3 \right )$ 7.Word2Vec  計算文本相似度:可先將詞條轉化成向量,從而根據余弦相似度來計算文本之間的相似性。 |
NLP-統計語言模型