論文閱讀-RankME: Reliable Human Ratings for Natural Language Generation
阿新 • • 發佈:2020-10-11
人工評價仍然是NLG任務主流的評價方式。本文旨在提高人工評價質量。
CrowdFlower 的程式碼,但是感覺都是前端頁面的程式碼。。
相關方法
名稱 | 全稱 | 釋義 |
---|---|---|
Likert | 李克特量表 | |
ME | magnitude estimation | 量值估計 |
plan ME | plain magnitude estimation | 簡單量值估計 |
RankME | rank-based magnitude estimation | 基於排序的量值估計 |
ME是在這篇論文中介紹的(看3.1那一節),原文如下:
Rather than giving participants a fixed scale, we used the magnitude estimation paradigm, which is more suitable to capture robust or subtle differences between the relative strength of acceptability or grammaticality violations
ME 過程是使用了拉丁方設計,讓每一個人給句子打分(分數只有大於0就行),同一個人的打分再進行一個歸一化到0-1之間.
RankME
RankME則是讓每一個人對所有的候選句子進行一個relative ranking(RR)。但是怎麼做relative ranking並沒有之間提到,但是論文說該方法綜合了 ContinuseScale(CS)、MagnitudeEstimation(ME)、Relative
Assessment
和relative ranking最近的就是最後一篇論文,而在那篇論文中,RR的過程就是把候選句子按照句子質量,由好到壞排一下。
但是在這裡,他給了ME的打分準則,我在原文中是沒有看到的。