1. 程式人生 > >Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper

Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper

http://www.aclweb.org/anthology/N07-1058


Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT

 

資料不公開

 

1、introduction

L1英語學習者而言,英語水平很高的時候的語法能力其實和開始學英語的時候差不多,因為他們的語法是在使用中互動中學會的,而L2是在課本中學會的,所以L2高階學習者的語法可能不可強。所以grammer對於L2的readability的預測和評估很重要,比如動詞時態、被動時態等。

 

2、language model readability prediction for first language texts

統計語言模型比傳統公式的好處:

1)短文字和web文字上的準確率更高

2)給出概率分佈而不是一個預測值

3)語言模型可以提供更多關於文字中單詞相對難度的資料

我們的統計模型用的是多項式貝葉斯分佈(就跟上一篇paper一樣)

雖然unigram是weak model,但是會比tri、bi這種更復雜的模型要求更少的資料集

3、grammatical construction readability prediction for second language texts

3.1 features for grammer-based prediction

斯坦福parser用來產生constituent structure trees

PCFG scores可以用來過濾掉預料中有問題的文字

預設訓練集是Penn Treebank來parser,因為該文字和L2學習者的閱讀材料是相近的