A Language Modeling Approach to Predicting Reading Difficulty-paer
Volume:Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL 2004
Authors:Kevyn Collins-Thompson | James P Callan 、
Year:2004
Venues:NAACL | HLT
數據不公開:
550英文document,12個等級,448715個token,17928個type,來自不同主題
1 introduction
公式的方法~線性回歸模型
我們的統計模型~
1)捕捉每個單詞的更細節的特征~我們在更短的文章甚至小於10個單詞時,準確率也很高
2)統計的方法可以獲得概率分布,而不僅僅是一個預測
2 Description of Web Corpus
token定義為任何一個word的出現
type定義為一個word字符串,無論出現多少次也只算一次
數據:550英文document,12個等級,448715個token,17928個type,來自不同主題
我們的假設是:即使文本內容的主題不一樣,單詞的使用模式和文本的難度是有明顯關系的
3 Related Work
之前的可讀性評價依賴於兩個主要因素:
1)the familiarity of semantic units(words or phrases)語義單元的熟悉度,如word或短語
2)the complexity of syntax. 句法的復雜
最為常用的是‘vocabulary-based measures’:
使用一個單詞列表來估計語法難度,而不是number of syllables in a word,例如以下都是用單詞列別的一些類型來估計語法難度
the Lexile measure (Stenner et al., 1988)
the Revised Dale-Chall formula (Chall and Dale,1995)
the Fry Short Passage measure (Fry, 1990).
--Lexile (version 1.0) uses the Carroll- Davies-Richman corpus of 86,741 types (Carroll et al., 1971);
--Dale-Chall uses the Dale 3000 word list;
Fry‘s Short Passage Measure uses Dale & O‘Rourke‘s
--‘The Living Word Vocabulary’ of 43,000 types (Dale
and O‘Rourke, 1981)
和Si and Callan(2001)這篇最早的也是唯一的使用語言模型的方法相比:
2001:只使用了science一個主題,分為3個難度,貝葉斯,沒有實現特征選擇方法的分析,所以並不知道它們的分類是是否將話題預測和難度預測混為一談
我們:不限主題,12個難度等級,訓練集更大,也使用貝葉斯,但是每個類別並不是獨立的,我們使用了混合等級模型,大大提高了準確率。也沒有把句子長度作業一個句法成分。測試了特征提取以及模型的泛化能力
4 The Smoothed Unigram Model
A Language Modeling Approach to Predicting Reading Difficulty-paer