Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper
http://www.aclweb.org/anthology/N07-1058
Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT
資料不公開
1、introduction
L1英語學習者而言,英語水平很高的時候的語法能力其實和開始學英語的時候差不多,因為他們的語法是在使用中互動中學會的,而L2是在課本中學會的,所以L2高階學習者的語法可能不可強。所以grammer對於L2的readability的預測和評估很重要,比如動詞時態、被動時態等。
2、language model readability prediction for first language texts
統計語言模型比傳統公式的好處:
1)短文字和web文字上的準確率更高
2)給出概率分佈而不是一個預測值
3)語言模型可以提供更多關於文字中單詞相對難度的資料
我們的統計模型用的是多項式貝葉斯分佈(就跟上一篇paper一樣)
雖然unigram是weak model,但是會比tri、bi這種更復雜的模型要求更少的資料集
3、grammatical construction readability prediction for second language texts
3.1 features for grammer-based prediction
斯坦福parser用來產生constituent structure trees
PCFG scores可以用來過濾掉預料中有問題的文字
預設訓練集是Penn Treebank來parser,因為該文字和L2學習者的閱讀材料是相近的