1. 程式人生 > >A Statistical Model for Scientific Readability-paper

A Statistical Model for Scientific Readability-paper

image 分享 sta 但是 適合 判斷 數據集 info pap

monosyllable 單音節詞

數據不公開:  educational Web pages ,A total of 91 Web pages。Pages were grouped into three readability levels: KindergartenGrade2, Grade3-Grade5, and Grade6-Grade8

2. READABILITY METRICS

技術分享圖片

第一個是個初級中級學習者

第二個會比別的給的難度分更高

第三個用的更廣

3. STATISTICAL LANGUAGE MODELS

線性模型廣泛用於模型的組合,EM算法用來尋找最佳參數

線性插值公式來組合語言模型和句子長度模型:前者用ngram,後者考慮句長

1)unigram語言模型假設生成一個詞的概率適合上下文無關的。雖然unigram模型在人類語言上效果不好,但是它們適合很多應用,有可以在小數據上訓練的優點。

2)通過看某個特征的值是否和難度成正比或反比,來判斷特征重要與否,最後得出句長特征很重要,公式法中單音節不適合該數據集;然後假設符合正態分布

技術分享圖片

4 實驗

KF這種公式法只能得出最終屬於哪個等級,但是我們的數據集並不含有這些等級。我們統計的方法可以給出概率這種soft metric。

A Statistical Model for Scientific Readability-paper