對話系統評價指標

阿新 • • 發佈：2019-02-03

概述

對話系統的指標分為兩大類：客觀評價指標和主觀評價指標

其中客觀評價指標分為詞重疊評價指標和詞向量評價指標。

【詞重疊評價指標】

根據生成語句與參考答案語句之間的詞重疊率來進行評價

【詞向量評價指標】

通過了解每一個詞的意思來判斷回覆的相關性，詞向量是實現這種評價方法的基礎。

給每個詞分配一個詞向量
所有詞的詞向量矩陣通過拼接成為表示一個句子的句向量，得到生成語句和參考答案語句的句向量
通過餘弦距離得到兩者相似度進行比較。
- 客觀評價指標
- 詞重疊評價指標
- BLEU
- ROUGE
- METEOR
- 詞向量評價指標
- Greedy matching（貪婪匹配）
- Embedding Average（向量均值法）
- Vector Extrema（向量極值法）
- 困惑度(perplexity)
- 主觀評價指標
- 流暢度
- 相關性
- 多樣性

BLEU

【思想】

BLEU就是比較模型的生成語句和參考答案語句中的n-gram片語在整個訓練語料中共現次數。

該方法認為如果共現次數越多，則越準確，效果越好。

一般採用BLEU-4

【原理】

P_{n} (r, \hat{r}) = \frac{\sum_{k} min (h (k, r), h (k, r_{i}))}{\sum_{k} h (k, r_{i})} B L E U = B P ∙ e x p (\sum_{n = 1}^{N} w_{n} \log P_{n}) B P = {\begin{cases} 1 & if c>r \\ e^{1 - r / c} & else \end{cases}

其中

$P_{n} (r, \hat{r})$ 計算n-gram的短語片語在整個資料集中的準確度

注：此處n-gram的值為1，2，3，….,n
- $h (k, r)$ 表示每個n-gram片語在參考答案語句中出現的次數（因為對於每個n而言都會存在很多個n-gram片語，所以要有一個求和符號）。
- $P_{n}$ 其實就是每個n-gram片語在參考答案語句和生成語句中出現次數的較小值求和除以其在生成語句中出現次數的求和。
$w$ 表示各個n-gram的權重。
BP是長度過短懲罰因子，由BP的公式可知取值範圍是(0,1]，候選句子越短，越接近0。我們不想讓生成的答案長度太短，所以加一個懲罰因子來改善效果。

【特點】

僅在詞向量基礎上比較生成語句和參考答案語句的相似性，很難捕捉長距離的語義。

Greedy Matching

【原理】

mark

將生成語句 $r$ 和參考答案語句 $\hat{r}$ 的每個詞轉換為詞向量 $e_{w}, e_{\hat{w}}$
將得出的生成語句的詞向量 $e_{w}$ 與參考答案語句的每個詞向量計算餘弦相似度，並取最大值。
同樣流程反過來對生成語句再進行一次，最後結果取二者均值。

【特點】

僅在詞向量基礎上比較生成語句和參考答案語句的相似性，很難捕捉長距離的語義。

Embedding Average

【思想】

該方法使用句向量計算生成語句和參考答案語句之間相似度。

【原理】

語句的句向量：通過語句中每個詞的詞向量求均值來計算

$\bar{e} = \frac{\sum_{w \in r} e_{w}}{| \sum_{w^{'} \in r} e_{w}^{'} |}$
$\bar{e}$ 表示句子r中所有片語的詞向量均值。
分別計算出生成語句和參考答案語句的句向量，再計算二者餘弦相似度進行比較。

困惑度

【語言模型】

給出一句話的前k個詞，希望它可以預測第k+1個詞是什麼，即給出一個第k+1 個詞可能出現的概率的分佈p(x_{k+1}|x_1,x_2,…,x_k)

【思想】

困惑度(Perplexity)是衡量語言模型好壞的指標，估算一句話看該句子是否通順。

它主要是根據每個詞來估計一句話出現的概率，並用句子長度作normalize。

【原理】

S代表句子，N代表句子長度
p(w_i)是第i個詞的概率。第一個詞是p(w_1|w_0),w_0是START，代表句子的起始，是個佔位符

困惑度越小，p(w_i)越大，期望的句子sentence出現的概率就越高。

【另一種表示】

P P (S) = 2^{- \frac{1}{N} \sum \log (P (w_{i}))}

從表示式上看和前面的意義是一樣的，只不過w_i不再是單個詞，它表示第i個bigram或其他單位量。

【用法】

當使用tf.contrib.seq2seq.sequence_loss()計算模型loss時，困惑度直接將計算出的loss取指數。

train_prep=math.exp(float(mean_loss)) if mean_loss < 300 else math.inf

【影響因素】

訓練資料集大小。資料集越大，困惑度越小。
資料中標點對困惑度影響很大。
資料中的“的，了”等詞對困惑度影響很大。可能“我借你的書”比“我借你書”的指標值小几十，但從語義上分析有沒有這些停用詞並不能完全代表句子生成的好壞。

對話系統評價指標

概述對話系統的指標分為兩大類：客觀評價指標和主觀評價指標其中客觀評價指標分為詞重疊評價指標和詞向量評價指標。【詞重疊評價指標】根據生成語句與參考答案語句之間的詞重疊率來進行評價【詞向量評價指標】通過了解每一個詞的意思來判斷回覆的相關性，詞

搜尋推薦系統評價指標

Precision和Recall 首先我們來看看下面這個混淆矩陣： pred_label/true_label Positive Negative Positive TP FP Negtive FN TN 如上表所示，行表示預測的label值，列

項亮《推薦系統實踐》讀書筆記1-推薦系統評價指標

推薦系統評價指標 1.評分預測預測準確度：均方根誤差（RMSE）：平均絕對誤差（MAE）：關於這兩個指標的優缺點，Netflix認為RMSE加大了對預測不準的使用者物品評分的懲罰（平方項的懲罰），因為對系統的評測更加苛刻。研究表明，如果

深度學習對話系統理論--資料集和評價指標介紹

對話系統常用評價指標當前對話系統之所以還沒有取得突破性的進展，很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標，但是很明顯對話系統的場景和需求與他們是存在差別的，這也是當前模型效果不是很好的原因之一。從對

深度學習對話系統理論篇--資料集和評價指標介紹

對話系統常用評價指標當前對話系統之所以還沒有取得突破性的進展，很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標，但是很明顯對話系統的場景和需求與他們是存在差別的，這也是當前模型效果不是很好的

模型（或系統）的評價指標

評價指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等；以一個二分類問題為例，引出混淆矩陣的概念： True Positive(真正，TP)：將正類預測為正類數 True Negative(真負，TN)：將負類預測為負類數 Fa

機器翻譯評價指標

兩個如同 absolute nor pre ring block 解決 blog 評價機器學習系統是的指標同樣適用於圖像或者視頻描述領域。BELU、Meteor、ROUGE、CIDEr和SPICE。前兩個是評測機器翻譯的，第三個是評測自動摘要的，最後兩個應該是為capti

聚類模型性能評價指標

art tps images 性能一個不同類不能順序 png 有監督的分類算法的評價指標通常是accuracy, precision, recall, etc；由於聚類算法是無監督的學習算法，評價指標則沒有那麽簡單了。因為聚類算法得到的類別實際上不能說明任何問題，除

scikit-learn中評價指標

style 說明回歸對比 kit 擬合 size 例如因變量一、R2 決定系數（擬合優度）它是表征回歸方程在多大程度上解釋了因變量的變化，或者說方程對觀測值的擬合程度如何。因為如果單純用殘差平方和會受到你因變量和自變量絕對值大小的影響，不利於在不同模型之間進

系統評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)

綜合 gho 評估 static 指標 href net rec 出現轉自：http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/ 1、準確率與召回率（Precision & Reca

詳細講解準確率、召回率和綜合評價指標

質量 .com http all strong average 均值比例 har 為了對實驗結果進行評價，用到準確率、召回率和F值，下面對此進行詳細介紹。 1、準確率與召回率（Precision & Recall）準確率和召回率是廣泛用於信息檢索和統計學分類領

Python機器學習：6.6 不同的性能評價指標

learning 分享混淆矩陣 sklearn fusion 性能 www. onf 準確率在前面幾個章節，我們一直使用準確率(accuracy)來評價模型的性能，通常這是一個不錯的選擇。除此之外，還有不少評價指標哦，比如查準率(precision)、查全率(recal

顯著性檢測(saliency detection)評價指標之KL散度距離Matlab代碼實現

mean enc gray SM tla function cor 代碼 ati 步驟1：先定義KLdiv函數： function score = KLdiv(saliencyMap, fixationMap) % saliencyMap is the saliency

王小捷--關於人機對話系統的思考

目標輔助模型多任務完全訂票類別閑聊及其王小捷--關於人機對話系統的思考 1.人機對話系統簡述目標驅動型人機對話（任務驅動對話系統）通過與用戶進行多輪對話，逐步收集與目標相關的信息，輔助用戶獲得某種服務。比如，航空訂票預訂系統，天氣查詢系統等。非

多分類評價指標python代碼

onf labels cores 允許 car matrix true 工具估計 from sklearn.metrics import precision_score,recall_score print (precision_score(y_true, y_score

對話系統評價指標

概述

BLEU

Greedy Matching

Embedding Average

對話系統評價指標

搜尋推薦系統評價指標

項亮《推薦系統實踐》讀書筆記1-推薦系統評價指標

深度學習對話系統理論--資料集和評價指標介紹

深度學習對話系統理論篇--資料集和評價指標介紹

模型（或系統）的評價指標

推薦系統的評價指標

推薦系統的評價指標總結

推薦系統排序（Rank）評價指標總結

推薦系統評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)

機器翻譯評價指標

聚類模型性能評價指標

scikit-learn中評價指標

系統評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)

詳細講解準確率、召回率和綜合評價指標

Python機器學習：6.6 不同的性能評價指標

顯著性檢測(saliency detection)評價指標之KL散度距離Matlab代碼實現

推薦系統--評估指標匯總

王小捷--關於人機對話系統的思考

多分類評價指標python代碼

對話系統評價指標

概述

BLEU

Greedy Matching

Embedding Average

相關推薦