如何構建阿里小蜜演算法模型的迭代閉環？

導讀：伴隨著AI的興起，越來越多的智慧產品誕生，演算法鏈路也會變得越來越複雜，在工程實踐中面臨著大量演算法模型的從0到1快速構建和不斷迭代優化的問題，本文將介紹如何打通資料分析-樣本標註-模型訓練-監控迴流的閉環，為複雜算法系統提供強有力的支援。

新技術/實用技術點：

實時、離線場景下資料加工的方案選型
高維資料的視覺化互動
面對不同演算法，不同部署場景如何對流程進行抽象
01. 背景
技術背景及業務需求
小蜜系列產品是阿里巴巴為消費者和商家提供的智慧服務解決方案，分別在使用者助理、電商客服、導購等方面做了很多工作，雙十一當天提供了上億輪次的對話服務。其中用到了問答、預測、推薦、決策等多種演算法模型，工程和演算法同學在日常運維中會面臨著如何從0到1快速演算法模型並不斷迭代優化，接下來將從工程角度介紹如何打通資料->樣本->模型->系統的閉環，加速智慧產品的迭代週期。
實現
實現這一過程分為2個階段：
0->1階段：
模型冷啟動，這一階段更多關注模型的覆蓋率。
實現步驟：
A. 抽取對話日誌作為資料來源
B. 做一次知識挖掘從日誌中挑出有價值的資料
C. 運營人員進行標註
D. 演算法對模型進行訓練
E. 運營人員和演算法端統一對模型做評測
F. 模型釋出

1->100階段：
badcase反饋和修復階段，主要目標是提升模型的準確率。
實現步驟：
A. 運營端根據業務反饋（頂踩按鈕）、使用者不滿意會話（如：轉人工）收集badcase資訊
B. 進行資料分析，將分析結果給到不同的模型模組、規則模組
C. 演算法端對以上模型分別進行訓練
D. 最終釋出到線上生效
痛點
在以上過程中，會遇到如下幾個痛點：
A. 不同演算法需要不同的標註互動形式，如何快速支援
B. 運營方的標註憑藉個人感覺，缺少指導，無法保障質量
C. 線上badcase如何快速發現和修復
D. 機器人中部署了上百個演算法模型，日常維護需要佔用工程師大量的精力
E. 資料樣本在業務和演算法之間來回傳遞，有安全隱患
02. 閉環迭代模型的產生
模型訓練閉環
基於以上的痛點，阿里小蜜團隊構建了模型訓練閉環。該閉環系統主要包括對話系統層、資料層、樣本層和模型層這4個部分。

彼此之間的關係、流程如下：

A. 對話系統層：使用者端會跟機器人系統進行對話

B. 對話產生的日誌經過數倉埋點進入到資料層

C. 資料層由運營人員做標註

D. 完成標註的資料作為樣本，藉助演算法團隊提供的訓練/評測服務，進入到模型層

E. 模型釋出到系統中，形成訓練閉環

系統 => 資料
① 多維資料查詢
這一部分講述如何從系統層到達資料層，這裡會涉及到“多維資料查詢”這樣一個概念。前面提到，資料來源的渠道是多種多樣的；這些資料會具備多種多樣的屬性，例如：行業屬性、使用者型別屬性等。不同業務的對話日誌帶有各自的業務屬性。

在應用多維資料查詢的過程中，難點是屬性相交等問題。平臺的第一項工作就是資料預處理，遍歷出所有的業務-屬性組合；運營人員取資料的時候，先選擇業務維度；接著從業務維度到資料維度進行一層對映，從而去掉其業務屬性（例如，時間、地點、行業等維度分別對映成A、B、C）

② OLAP與“資料立方體”
這裡用到了聯機分析處理（OLAP ，On-Line Analytical Processing，一種資料動態分析模型）技術。首先會構造“資料立方體”這樣一種資料結構，將資料分成多種維度，包括：來源維度、路線維度、時間維度。

對資料立方體由上卷和下鑽這兩種基本操作，生成新的立方體。下圖中，右半部分是將城市維度進行了上卷操作，左半部分是將季度維度進行了下鑽操作。

資料立方體結構的不足：
A. 維度型別。對於商家這種百萬數量級的維度，搜尋起來效率低下。針對這種缺點，選擇對於重點商家重點維度進行儲存。
B. 多條件的or關係查詢，在這種立方體結構中無法實現。
C. 列舉數量和效率的平衡。需要根據具體覆蓋業務定義屬性等。
資料 => 樣本
① 標註元件
資料標註環節由“人工智慧訓練師”這個角色參與，標註形式會根據演算法的選擇而調整，包括：標籤、實體、屬性間關係等。
如下圖所示：

元件包括狀態列、搜尋框、表格（支援配置），可進行標註分類、文字型精選、排序型篩選、任務操作內容等多個模組（詳見下圖）。

這樣的元件有如下的缺點：
A. 1D表格無法有效利用演算法資料結構
B. 操作繁瑣困難
C. 浪費畫素空間
D. 無盡的翻頁

② 高維資料視覺化
基於元件存在的以上種種缺點，我們選擇了將資料降維。
什麼是高維資料？
高維資料包括：
A. 機器人阿里小蜜的文字資料
B. 圖片
C. 語音資料
視覺化後的高維資料長什麼樣子？

視覺化前

視覺化後
上圖是對文字資料視覺化後的結果。實現步驟：
A. 對文字資料進行聚類，根據相似度變成平面結構
B. 用顏色區分類別
這種方式可以直觀看出線上的語料分佈，包括分佈類別、分佈集中趨勢等。
這裡用到的技術方案包括：
A. 降維：主要用PCA和T-SNE兩種降維方式
B. 向量化：資料拆分之後，將資料轉變為可比較的表示形式。對於文字，主要使用word2vec；而對於圖片，主要使用phash編碼。
C. 聚類：聚類主要使用k-means。

③ 散點圖塌縮及其互動
下圖中的左圖是聚類後的效果圖。聚類完成後，每一類圖片的每一類都會分佈到一起；再通過散點圖塌縮演算法，將每一個類壓縮成一個散點，通過顏色區分類別種類。
利用這種方式，可以找出badcase中佔比最高的一類，從而進行修復。

在對類的互動中，有一些特殊的操作，例如：框選。上圖右圖的散點圖中，可以通過框選的方式抽取每一類的關鍵詞。

03. 實時佈防
語料關鍵詞的識別與新增

上圖是某一天貓商家的海報圖：某商家正在搞一個促銷活動，找易烊千璽作為代言人。由於機器人預先不知道會有這樣一個活動發生，模型中自然不包含這樣的關鍵詞。商家發現當天的未識別語料全部都和“易烊千璽”相關，但是機器人不識別這個關鍵詞（未識別率達70%以上）。怎樣快速幫商家解決這類問題呢？
實時佈防

這類的AI能力如何做實時佈防呢？將這類問答、意圖等AI能力在自己的伺服器上以日誌的形式做埋點，伺服器會將日誌收集起來通過flink平臺做實時流式聚類，商家工作臺通過標註元件的形式展現當前時段的高頻問題，並通過互動式選項選擇如何修復（以上圖中的藍色選定區域為例），從而讓機器人能夠識別該語料。
資料加工
從業務日誌中提取模型需要的語料需要進行一些基本的演算法加工，這些步驟除了面臨大資料的壓力，研發工程師還要考慮對這種加工能力的封裝和複用。

A. 首先，對日誌資料做脫敏：將日誌中的手機號、地址、人名等去掉，對單字型文字、語聊型文字的去除；
B. 接下來對資料做去重和向量化；
C. 下一步是對處理完成的資料做聚類；
D. 聚類後的資料做摘要，進而做相似度計算。
整個過程需要很多的演算法模組，每一個模組都會封裝成一個演算法元件，提供到不同的模型迭代中。上圖的下半部分就是語料經過了不同演算法模組的變化，從向量到聚類，進而抽取不同Topic。
下圖是以上過程抽象成的模板。

模板中包含了演算法元件、標註元件、訓練元件等不同的元件；運營人員在線上可以挑選不同元件配置模板來優化對應的模型。
在模板執行的過程中，可使用mapreduce元件、UDF元件以及Spark元件。Spark元件是目前通用性較強的元件，既可本地排程，又可遠端排程。
構建資料處理引擎
基於Spark構建資料處理引擎，分為客戶端和計算叢集兩個系統。客戶端包括元件庫、排程引擎，以及Spark Client Runner。

這種架構的好處：演算法可以在本地開發spark元件，直接整合到模板中；同時支援遠端叢集模式和本機輕量級排程，大小資料量都適用；同時spark擁有 SQL和spark mllib兩個元件庫，研發通過封裝可以直接開放給業務使用。
本次分享就到這裡，謝謝大家。
歡迎加入DataFunTalk交流群，跟同行零距離交流。如想進群，請加逃課兒同學的微信（微訊號：DataFunTalker），回覆：交流，逃課兒會自動拉你進群。

如何構建阿里小蜜演算法模型的迭代閉環？

導讀：伴隨著AI的興起，越來越多的智慧產品誕生，演算法鏈路也會變得越來越複雜，在工程實踐中面臨著大量演算法模型的從0到1快速構建和不斷迭代優化的問題，本文將介紹如何打通資料分析-樣本標註-模型訓練-監控迴流的閉環，為複雜算法系統提供強有力的支援。新技術/實用技術點：實時、離線場景下資料加工的方案選型高

揭祕阿里小蜜：基於檢索模型和生成模型相結合的聊天引擎

面向 open domain 的聊天機器人無論在學術界還是工業界都是個有挑戰的課題，目前有兩種典型的方法：一是基於檢索的模型，二是基於 Seq2Seq 的生成式模型。前者回復答案可控但無法處理長尾問題，後者則難以保證一致性和合理性。本期推薦的論文筆記來自 Pa

競賽資訊|阿里小蜜機器人跨語言短文字匹配演算法競賽

（本內容轉載自公眾號“科技與Python”） CIKM AnalytiCup 2018 – 阿里小蜜機器人跨語言短文字匹配演算法競賽

演算法之迭代和遞迴

在計算機程式設計實現中有常常兩種方法：一為迭代（iterate）；二為遞迴（recursion）。一、概念區分迭代：利用已知的變數值，根據遞推公式不斷演進得到變數新值得程式設計思想。遞迴：是指程式呼叫自身的程式設計思想，即一個函式呼叫本身如果遞迴是自己呼叫

DL4J中文文件/模型/迭代器

什麼是迭代器? 資料集迭代器允許將資料輕鬆載入到神經網路中，並幫助組織批處理、轉換和掩碼。包含在Eclipse DL4J中的迭代器有助於使用者提供的資料，或者自動載入公共的基準資料集如MNIST和IRIS。用法對於大多數用例，初始化迭代器和傳遞一個引用到MultiLayerNetwo

C++沉思錄演算法迭代器__資料結構

書中弟18章總結中有這麼一段話：所謂的泛型演算法，就是這樣的演算法，對於所操作的資料結構的細節資訊，只加入最低限度的理解。當然，這是理想情況，實際上是做不到的，作為這樣一種折中。STL根據資料結構能夠支援的有效操作，將這些資料結構進行分類。然後，對於每一個演算法，指出這個演算法所需要的資料結構

圖及演算法----遍歷演算法（迭代實現）

1. 圖的遍歷 2. 3. class Graph: def __init__(self): self.graph: Dict[str, List[str]] = defaultdict(list) def addEdge(self,

Java機器學習庫ML之六關於模型迭代訓練的思考

我遇到的場景是：樣本集有5000萬條，接近5個G，那麼這樣的樣本集一次匯入訓練，我放著一天一夜都沒跑出結果，機器效能還特別好，是64位linux有128G記憶體。針對這樣的情況，我想到的是兩種思路： 1）將樣本集分割然後來迭代訓練模型，這個對模型結果理論上是沒有影響的，

機器如何猜你所想？阿里小蜜預測平臺揭祕

阿里妹導讀：阿里小蜜是2015年阿里釋出的一款智慧客服機器人。2017年雙11期間，阿里小蜜的服

阿里小蜜技術學習筆記--知識點整理

簡要：本文通過阿里技術公開的文章，對其知識點進行整理。供個人學習使用。 1、阿里小蜜技術原文： http://www.infoq.com/cn/articles/electricity-supplier-intelligent-assistant/ 簡單來說就是一套智

基於Spark的Als演算法+自迭代+Spark2.0新寫法

主要介紹了一下幾點： 1矩陣分解的幾種演算法 2spark使用矩陣分解的幾種方式，1ml 包中使用，2mllib包中的使用，其實有不呼叫包自己寫的案列（可以去看看哈，就在example目錄） 3使用ALS做推薦的一個比較詳細的流程：1自迭代確定比較優的引數

【演算法】迭代和遞迴

在日常程式的編寫中，複雜的專案日益增多，在後期的程式碼優化上需要花更多的時間和精力。在前期的規劃上也越來越重要，前期良好的規劃可以避免後期遇到些奇怪的問題。這次部落格我希望通過講解下迭代和遞迴的具體應用場景，來表達寫程式是前期規劃的作用和解決具體問題所需要的方法。

Dijkstra演算法-(迪傑斯特拉)演算法的迭代實現與優先佇列實現圖解演算法過程

Dijkstra演算法-(迪傑斯特拉)演算法之迭代實現 Dijkstra演算法-(迪傑斯特拉)演算法之優先佇列實現該演算法的核心原理，很簡單，如下圖所示：先說說Dijkstra演算法-(迪傑斯特拉)演算法之迭代實現，如下圖為詳細步驟，程式碼如下，兩種實現方法

高階搜尋演算法之迭代加深

# 前言最開始搞 $OI$ 的時候接觸了搜尋演算法，後面基本上沒有在練過了。若本文有誤，請在討論區指出。 [本文例題連結](https://www.luogu.com.cn/problem/UVA529) # 思想 ![在這裡插入圖片描述](https://img-blog.csdnimg.cn/2021

如烹小蝦：運維自動化閉環，騰訊是這樣做的

本文是數人云深圳技術分享課上優維科技聯合創始人彭鯉航的演講實錄，演講主題是《運維自動化實踐》，由高效運維公眾號編輯。精彩觀點搶鮮看實現運維自動化閉環，最主要就是配置管理、狀態管理和變更管理能力。治大國如烹小蝦，我們來類比餐廳老闆，看如何實現炒菜的自動化：首先，我要知道我的廚房裡到底有些什麼

演算法篇：SGD+logistic+Adaboost構建快速迭代增強式LR模型

寫在最前： - 之前在新浪開個部落格寫東西，總有些不方便，後來看了CSDN，內建Markdown，寫起來突感一見如故，十分感動。 - 工作中由於經常需要做一些視覺化和演算法類的研究，所以開個CSDN總結和記錄一下。下面主要講的是

迭代權重最小二乘演算法

迭代權重最小二乘(Iteratively reweighted least squares, IRLS) [1] 方法用於求解$p$範數($p$ norm)的最小化問題。問題如下： \[\arg \min_{x} \sum_{i} | y_i - f_i (x) |^p\] 通過迭代的方法，在每次迭代

馬蜂窩推薦排序演算法模型是如何實現快速迭代的

（馬蜂窩技術原創文章，微信ID：mfwtech） Part.1馬蜂窩推薦系統架構馬蜂窩推薦系統主要由召回（Match）、排序（Rank）、重排序（Rerank）幾個部分組成，整體架構圖如下：在召回階段，系統會從海量的內容庫篩選出符合使用者偏好的候選集（百級、千級）；排序階段在此基礎上，基

用不到 50 行的 Python 代碼構建最小的區塊鏈

str 分享圖片 art contract 跟蹤 search 技術 font ima 引用譯者註：隨著比特幣的不斷發展,它的底層技術區塊鏈也逐步走進公眾視野,引起大眾註意。本文用不到50行的Python代碼構建最小的數據區塊鏈，簡單介紹了區塊鏈去中心化的結構與其實現原理

基於模型融合的推薦系統實現(2)：迭代式SVD分解

SVD演算法的原理網路上也有很多,不再細說了,關鍵是我們得到的資料是不完整的資料,所以要算SVD就必須做一次矩陣補全。補全的方式有很多,這裡推薦使用均值補全的方法(用每一行均值和每一列均值的平均來代替空白處)，然後可以計算SVD,作PCA分析,然後就可以得到預測結果。但是我們這裡有

如何構建阿里小蜜演算法模型的迭代閉環？

相關推薦