智慧問答中Answer seletcion的一些總結

阿新 • • 發佈：2018-12-22

傳統做法：

1.直接根據關鍵詞檢索或 BM25 等演算法計算相關性排序

缺點：

需要維護大量的同義詞典庫和匹配規則

機器學習做法：

1.潛在語義分析技術（Latent Semantic Analysis，LSA）：將詞句對映到低維連續空間，可在潛在的語義空間上計算相似度。

2.PLSA（Probabilistic Latent Semantic Analysis）或者LDA（Latent Dirichlet Allocation）等淺層主題模型技術方向。

優點：對文字的語義表示形式簡潔，較好地彌補了傳統詞彙匹配方法的不足

缺點：無法完全替代基於字詞的匹配技術

深度學習

：

基於神經網路訓練的 Word2vec來進行文字匹配計算

缺點：

無監督的 Word2vec 在句子匹配度計算的實用效果上還是存在不足，而且本身沒有解決短語、句子的語義表示問題

句子級別上的神經網路語言模型：DSSM 模型（Deep Structured Semantic Model）

基於二維互動匹配的卷積匹配模型

多視角迴圈神經網路匹配模型（MV - LSTM）

基於矩陣匹配的的層次化匹配模型 MatchPyramid

雖然模型的結構非常多種，但底層結構單元基本以全連結層、LSTM、卷積層、池化層為主

ps:我在9月底看過不錯的論文：

Attentive Pooling Networks：這篇論文需要的語料需要正負對的形式，也就是pair - wise。

Siamese Recurrent Architectures for Learning Sentence Similarity：這篇論文需要做的是對語料進行同義句改寫，對標註團隊而言，工作量比較大。

語義模型訓練框架——分類

一般最後一層接的是多類別的 softmax，即輸入是使用者 Q，分類結果是所屬的標準 Q 類別。

語義模型訓練框架——排序

三種類型：point - wise，pair - wise 和 list - wise。

point - wise 的方法直接把問題轉換成二分類，判斷當前使用者問題是否屬於帶匹配的問題，最後根據隸屬概率值可以得到問題的排序。

pair - wise 學習的是(uq,sq+)和(uq,sq-)兩兩之間的排序關係，訓練目標是最大化正樣本對和負樣本對的距離：max⁡L=||f(uq,q+ )-f(uq,q- )||d，其中f(·)表示某種距離度量。

多輪對話

Task 任務式對話，Task（goal - driven system）是根據預定義的槽位和狀態來表示上下文，並且依照某個業務邏輯的對話管理策略來引導使用者到想要搜尋的內容。

QA（non - goal - driven system）不是面向槽管理的，而是根據使用者會話意圖來調整對話過程。

在 QA 的上下文會話管理方法中，大致可分為兩個方向，一個是 Rule - Based 的上下文模型；另一個是 Model - Based 的上下文模型。

Rule - Based：通過預定義一些先驗知識來表示上下文，在會話中不斷修改上下文的先驗知識並根據上下文記錄資訊來重排序。

Model - Based：Model - Based 相對於 Rule - Based 的好處就是能夠提升泛化能力。把上下文資訊表徵在向量裡，並通過層次化模型來學習和推斷。

該模型主要有三個結構：句子級 encoder 模型、context 級別 encoder 模型以及 response decoder 模型。

輸入聯想

一、Trie 樹結構：在搜尋中，可以把所有的候選詞條建立一個字典樹，然後根據使用者輸入的字首到 Trie 樹中檢索候選集，展示給使用者。

優點：簡單有效，能夠快速上線。

缺點：召回率較低，這是因為字典樹要求使用者輸入的詞語必須和候選集合裡的短語句子要有一致的字首。

泛化優化：例如去除掉停用詞或者無意義詞語等，儘可能提高召回。但提升有限。

二、point - wise 排序模型：

資料：歷史曝光點選資料

模型：邏輯迴歸模型

特徵：一類是基於 word2vec 得到的句子特徵，另一類是傳統的 TF - IDF 特徵，最後一類是重要詞彙特徵（這類特徵是通過資料探勘得到的對應場景的重要詞）。

優點：使用率比字典樹有了明顯提升，召回率大幅度提高。

缺點：線上存在很多拼音漢字混搭的case，模型沒有解決能力；-使用者輸入的話術存在很多錯別字；-聯想請求場景以超短文字為主，大都集中在 2 - 6 個字。

智慧問答中Answer seletcion的一些總結

傳統做法： 1.直接根據關鍵詞檢索或 BM25 等演算法計算相關性排序缺點：需要維護大量的同義詞典庫和匹配規則機器學習做法： 1.潛在語義分析技術（Latent Semantic Analysis，LSA）：將詞句對映到低維連續空間，可在潛在的語義空間上計

C++中const的一些總結

1.const常量代替#define巨集定義 const常量有資料型別，而巨集常量沒有資料型別。編譯器可以對前者進行型別安全檢查。而對後者只進行字元替換，沒有型別安全檢查，並且在字元替換可能會產生意料不到的錯誤。（上面這段話出自《高質量C++程式設計指南》） 2.const

關於python中字典的一些總結

1、獲取字典中的值，但是無異常當在字典中取值的時候，可以使用如下兩種方式： >>> d = {'name':'kel'} >>> d {'name': 'kel'} >>> d['name'] 'kel' >&

智慧問答中的NLU意圖識別流程梳理

#### NLU意圖識別的流程說明基於智慧問答的業務流程，所謂的NLU意圖識別就是針對已知的訓練語料(如語料格式為$(x,y)$格式的元組列表，其中$x$為訓練語料，$y$為期望輸出類別或者稱為意圖)採用選定的演算法構建一個模型，而後基於構建的模型對未知的文字進行分類。流程梳理如下： - 準備訓練資料，

OpenCV使用中的一些總結

操作 images ont 技術分享背景 out image 通道 size 一、threshold閾值操作 1、閾值可以被視作最簡單的圖像分割方法。例如，從一副圖像中利用閾值分割出我們需要的物體部分，這樣的圖像分割方法基於圖像中的物體與背景之間的灰度差異。 2、thre

Android中實現短音訊和震動的一些總結

好長時間沒有寫部落格了，因為最近事情比較多。所以好長時間沒有寫部落格了。堅持是一件很辛苦的事情。但還需要努力。。。好了，閒話不扯了。因為最近專案中用到了相應的短音訊和震動的功能，所以這裡總結一下相應的內容！本文知識點: 音訊中的一些知識和常用的API介紹；

pycharm+pyqt5在應用中遇到的一些問題總結

目錄 1、UI與邏輯分離 2、執行緒的建立 3、動態建立多執行緒 4、停止指定執行緒 1、UI與邏輯分離兩者分離，一個是程式碼結構更清晰；另外，將複雜的邏輯放到執行緒中，不會造成UI的卡頓 2、執行緒的建立網上很多方法和教程都是直接繼承QThread，重寫

SAGAN程式除錯中遇到的一些問題總結

(1)執行程式過程中出現了interrupted by signal6:SIGABRT 的錯誤，並提示無法找到CUDNN的控制代碼解決方法：在指定的GPU上面執行程式

C++中:和::區別和用法的一些總結

冒號（:）的用法 1、既定義變數所佔的大小例如： unsigned char a:4; 2、public:和private:後面的冒號，表示後面定義的所有成員都是公有或私有的，例如： class A { public: int a;

Flink學習中的一些總結

1.手動匯入兩個包 org.apache.flink.api.scala._ // 編譯不通過 scala.collection.JavaConverters._ //如果不手動匯入該包，導致asScala使用隱式轉換失敗 2.Flink基本api的描述碼上慢慢看看 https://www.

對C語言中語句部分的一些總結。

C的許多語句的行為和其他語言中的類似語句相似。 if語句根據條件執行語句，while語句重複執行一些語句。由於C並不具備布林型別，所以這些語句在測試值時用的都是整型表示式。零值被解釋為假，非零值被解釋為真。 for語句是while迴圈的一種常用組合形式的速記寫法，它把控制迴圈的表示式

C#中的靜態方法和靜態變數的一些總結

方法: static 修飾符的方法為靜態方法，反之則是非靜態方法靜態成員屬於類所有，非靜態成員屬於類的例項所有,無論類建立了多少例項，類的靜態成員在記憶體中只佔同一塊區域。(所有該類的例項都共享這個類的靜態成員) C#靜態方法屬於類所有，類例項化前即可使用，靜態方法只能訪

Redis的安裝以及在專案中使用Redis的一些總結和體會

第一部分：為什麼我的專案中要使用Redis 我知道有些地方沒說到位，希望大神們提出來，我會吸取教訓，大家共同進步！註冊時郵件啟用的部分使用Redis 傳送郵件時使用Redis的訊息佇列，減輕網站壓力。使用Lucene.Net在進行分詞時使用Redis訊息佇列和多執行緒來避免介面卡死等效能問

工作中遇見的一些問題總結

2017-08-07 學習fis3語法. 命令： -d destination 構建釋出到的目標檔案 -r run 執行 -w watch 監視配置檔案： fis.match(selector, props) 匹配檔案路徑，設定編譯規則屬性 fis.

關於ubuntu中python直譯器的一些總結

1.檢視python直譯器的位置先進入python import sys sys.executable 2.檢視python版本 python2 --version python3 --version 3.檢視python指向哪個直譯器並修改 pytho

深度學習中卷積和池化的一些總結

最近完成了hinton的深度學習課程的卷積和池化的這一章節了，馬上就要結束了。這個課程的作業我寫的最有感受，待我慢慢說來。 1：裡面有幾個理解起來的難點，一個是卷積，可以這麼來理解。這幅圖是對一個5*5的矩陣A進行3*3的矩陣B的卷積，那麼就從最上角到右下角，生成卷積之

近期工作中遇到的一些問題總結

1.城市列表資料的更新,可以加入版本控制這個概念,每次進入時先比對本地版本號跟伺服器版本號是否一致,不一致去網路進行請求來進行城市資料的更新. 2.解析字典的指令碼,將字典字串拷貝到txt文件,cd到其所在目錄,然後命令列執行:cat readme.txt |

最近在ArcGIS Engine開發中關於呼叫gp工具過程出現COM 元件的呼叫返回了錯誤 HRESULT E_FAIL 錯誤的解決方法和學習oracle中遇到的一些問題總結

首先說下AE開發中關於gp這一塊的東西，gp是一個很方便的工具，利用gp可以在程式碼中實現ArcMap工具箱中的大部分內容,關於gp工具的使用我就不說了，這些大部分都可以在網上找到，我要說的是gp使用過程中遇到的問題：一般gp的報錯為對 COM 元件的呼叫返回了錯誤 H

專案中遇到的一些問題總結（08.23更新）

寫一些最近工作中Vue專案中遇到的問題。巴啦啦小魔仙，汙卡拉，全身變，小本本，出來吧！會不定期更新，所以建議收藏。 1.獲取一個物件的鍵（key）在某種特定需求下(未知的Object型別資料)，我們想拿到這個未知物件中第一個元素的鍵(也就是newData)。程式碼如

開發工作中使用過的mysql的一些總結

saveOrUpdate 的方法？常見的 insert or update 場景在平常的開發中，經常碰到這種更新資料的場景：先判斷某一資料在庫表中是否存在，存在則 update，不存在則 insert。如果使用Hibernate，它自帶saverOrUpdat

智慧問答中Answer seletcion的一些總結

相關推薦