Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper
Authors:
Sarah E. Schwarm University of Washington, Seattle, WA
Mari Ostendorf University of Washington, Seattle, WA
Published in: ACL
time:June 25 - 30, 2005
Association for Computational Linguistics Stroudsburg, PA, USA ©2005
資料不公開
2 reading level assessment
最早:公式,syntactic特徵(如句長)
之後:概率語言模型(前兩個論文),smoothed unigram分類器捕捉詞的變化
smoothed unigram分類器的Overall Accuracy and Generalization Ability
UNK:text中unknown的比例
types:per 100-token passage裡的type即unique單詞的個數
MLF:passage和大語料的相對log平均概率
FK:FK公式
smoothed unigram分類器效能超過了上述semantic difficulty,但是沒有捕捉到syntactic information
我們的模型,使用ngram,捕捉both semantic和syntactic資訊
補充:
Syntax是語法上的,Sematic是語義上的。
在自然語言範圍內舉個簡單的例子The dog is a man.從syntax上來說,這句話沒有錯,主謂賓齊全而且各個成分的性和格也沒錯,但是語義上來說是錯的,dog 怎麼能是man呢。在不同的領域,syntax 和semantic有著不同的對照,但大致關係和自然語言裡是差不多的。
syntactic,也就是句法,指的是語言的結構,簡單說就是名詞動詞形容詞等等不同詞性的詞應該按什麼順序在某一個語言裡出現,還有某一種詞性的片語可以衍生出什麼新 的結構(比如VP->V NP) 。
結構正確的句子不一定有意義(semantic,也就是語義,指的是語言表達的意義)。 一個著名的例子是:“Colorless green ideas sleep furiously“。這個句子句法上完全正確,形容詞名詞動詞副詞各就各位,但是一點不make sense,正常生活中人不會明白這個句子要表達什麼意思。
比較簡單的理解語義和句法的區別的方法是:句法是講一個東西往哪擺的,語義是研究 擺那以後對句子的interpretation的影響的。