1. 程式人生 > 其它 >ACMMM2021|在多模態訓練中融入“知識+圖譜”:方法及電商應用實踐

ACMMM2021|在多模態訓練中融入“知識+圖譜”:方法及電商應用實踐

簡介:隨著人工智慧技術的不斷髮展,知識圖譜作為人工智慧領域的知識支柱,以其強大的知識表示和推理能力受到學術界和產業界的廣泛關注。近年來,知識圖譜在語義搜尋、問答、知識管理等領域得到了廣泛的應用。

作者 | 朱渝珊

來源 | 阿里技術公眾號

一 背景

1 多模態知識圖譜

隨著人工智慧技術的不斷髮展,知識圖譜作為人工智慧領域的知識支柱,以其強大的知識表示和推理能力受到學術界和產業界的廣泛關注。近年來,知識圖譜在語義搜尋、問答、知識管理等領域得到了廣泛的應用。多模態知識圖譜與傳統知識圖譜的主要區別是,傳統知識圖譜主要集中研究文字和資料庫的實體和關係,而多模態知識圖譜則在傳統知識圖譜的基礎上,構建了多種模態(例如視覺模態)下的實體,以及多種模態實體間的多模態語義關係。當前典型的多模態知識圖譜有DBpedia、Wikidata、IMGpedia和MMKG。

多模態知識圖譜的應用場景十分廣泛,它極大地幫助了現有自然語言處理和計算機視覺等領域的發展。多模態結構資料雖然在底層表徵上是異構的,但是相同實體的不同模態資料在高層語義上是統一的,所以多種模態資料的融合對於在語義層級構建多種模態下統一的語言表示模型提出資料支援。其次多模態知識圖譜技術可以服務於各種下游領域,例如多模態實體連結技術可以融合多種模態下的相同實體,可應用於新聞閱讀,同款商品識別等場景中,多模態知識圖譜補全技術可以通過遠端監督補全多模態知識圖譜,完善現有的多模態知識圖譜,多模態對話系統可用於電商推薦,商品問答領域。

2 多模態預訓練

預訓練技術在計算機視覺(CV)領域如VGG、Google Inception和ResNet,以及自然語言處理(NLP)如BERT、XLNet和GPT-3的成功應用,啟發了越來越多的研究者將目光投向多模態預訓練。本質上,多模態預訓練期望學習到兩種或多種模態間的關聯關係。學術界的多模態預訓練方案多基於Transformer模組,在應用上集中於圖文任務,方案大多大同小異,主要差異在於採用模型結構與訓練任務的差異組合,多模態預訓練的下游任務可以是常規的分類識別、視覺問答、視覺理解推斷任務等等。VideoBERT是多模態預訓練的第一個作品,它基於BERT訓練大量未標記的視訊文字對。目前,針對影象和文字的多模態預訓練模型主要可以分為單流模型和雙流模型兩種架構。VideoBERT,B2T2, VisualBERT, Unicoder-VL , VL-BERT和UNITER使用了單流架構,即利用單個Transformer的self-attention機制同時建模影象和文字資訊。另一方面,LXMERT、ViLBERT和FashionBERT引入了雙流架構,首先獨立提取影象和文字的特徵,然後使用更復雜的cross-attention機制來完成它們的互動。為了進一步提高效能,VLP應用了一個共享的多層Transformer進行編碼和解碼,用於影象字幕和VQA。基於單流架構,InterBERT將兩個獨立的Transformer流新增到單流模型的輸出中,以捕獲模態獨立性。

3 知識增強的預訓練

近年來,越來越多的研究人員開始關注知識圖(KG)和預訓練語言模型(PLM)的結合,以使PLM達到更好的效能。K-BERT將三元組注入到句子中,以生成統一的知識豐富的語言表示。ERNIE將知識模組中的實體表示整合到語義模組中,將令牌和實體的異構資訊表示到一個統一的特徵空間中。KEPLER將實體的文字描述編碼為文字嵌入,並將描述嵌入視為實體嵌入。KnowBERT使用一個整合的實體連結器,通過一種單詞到實體的注意形式生成知識增強的實體廣度表示。KAdapter為RoBERTa注入了事實知識和語言知識,併為每種注入的知識提供了神經介面卡。DKPLM可以根據文字上下文動態地選擇和嵌入知識,同時感知全域性和區域性KG資訊。JAKET提出了一個聯合預訓練框架,其中包括為實體生成嵌入的知識模組,以便在圖中生成上下文感知的嵌入。KALM、ProQA、LIBERT等研究還探索了知識圖與PLM在不同應用任務中的融合實驗。然而,目前的知識增強的預訓練模型僅針對單一模態,尤其是文字模態,而將知識圖融入多模態預訓練的工作幾乎沒有。

二 多模態商品知識圖譜及問題

隨著人工智慧技術的不斷髮展,知識圖譜作為人工智慧領域的知識支柱,以其強大的知識表示和推理能力受到學術界和產業界的廣泛關注。多模態知識圖譜與傳統知識圖譜的主要區別是,傳統知識圖譜主要集中研究文字和資料庫的實體和關係,而多模態知識圖譜則在傳統知識圖譜的基礎上,構建了多種模態(例如視覺模態)下的實體,以及多種模態實體間的多模態語義關係。如圖1所示,在電商領域,多模態商品知識圖譜通常有影象、標題和結構知識。

多模態商品知識圖譜的應用場景十分廣泛,多模態結構資料雖然在底層表徵上是異構的,但是相同實體的不同模態資料在高層語義上是統一的,所以多種模態資料的融合有利於充分表達商品資訊。多模態商品知識圖譜技術可以服務於各種下游領域,例如多模態實體連結技術可以融合多種模態下的相同實體,可以廣泛應用於產品對齊,明星同款等場景中,多模態問答系統對於電商推薦,商品問答領域的進步有著重大的推進作用。但目前還相當缺乏有效的技術手段來有效融合這些多模態資料,以支援廣泛的電商下游應用。

圖1

最近幾年,一些多模態預訓練技術被提出(如VLBERT、ViLBERT、LXMERT、InterBERT等),這些方法主要用於挖掘影象模態與文字模態資訊之間的關聯。然而,將這些多模態預訓練方法直接應用到電子商務場景中會產生問題,一方面,這些模型不能建模多模態商品知識圖譜的結構化資訊,另一方面,在電商多模態知識圖譜中,模態缺失和模態噪聲是兩個挑戰(主要是文字和圖片的缺失和噪聲),這將嚴重降低多模態資訊學習的效能。在真實的電子商務場景中,有的賣家沒有將商品圖片(或標題)上傳到平臺,有的賣家提供的商品圖片(或標題)沒有正確的主題或語義。圖 2中的Item-2和Item-3分別顯示了阿里場景中的模態噪聲和模態缺失的例子。

圖2

三 解決方案

為了解決這一問題,我們將產品結構化知識作為一種獨立於影象和文字的新的模態,稱為知識模態,即對於產品資料的預訓練,我們考慮了三種模態的資訊:影象模態(產品影象)、文字模態(產品標題)和知識模態(PKG)。如圖2所示,PKG包含<h, r, t>形式的三元組。例如,<Item-1, Material,Cotton>表示產品Item-1的材質是棉花。我們這樣處理的原因在於,(1)PKG描述了產品的客觀特性,它結構化且易於管理,通常為PKG做了很多維護和標準化工作,所以PKG相對乾淨可信。(2) PKG與其他模態包含的資訊有重合也有互補,以圖2的Item-1為例,從圖片、標題和PKG都可以看出Item-1是一件長袖t恤;另一方面,PKG表明這款t恤不僅適合秋季,也適合春季,但從圖片和標題看不出來。因此,當存在模態噪聲或模態缺失時,PKG可以糾正或補充其他模態。

四 模型架構

我們提出了一種在電子商務應用中新穎的知識感知的多模態預訓練方法K3M。模型架構如圖3所示,K3M通過3個步驟學習產品的多模態資訊:(1)對每個模態的獨立資訊進行編碼,對應modal-encoding layer,(2)對模態之間的相互作用進行建模,對應modal-interaction layer,(3)通過各個模態的監督資訊優化模型,對應modal-task layer。

圖3

(1)modal-encoding layer。在對每個模態的單個資訊進行編碼時,針對影象模態、文字模態以及知識模態,我們採用基於Transformer的編碼器提取影象、文字、三元組表面形式的初始特徵。其中文字模態和知識模態的編碼器引數共享。

(2)modal-interaction layer。當建模模式之間的相互作用時,有兩個過程。第一個過程是文字模態和影象模態之間的互動:首先通過co-attention Transformer基於影象和文字模態的初始特徵學習對應的互動特徵,其次,為了保持單個模態的獨立性,我們提出通過初始互動特徵融合模組來融合影象和文字模態的初始特徵及其互動特徵。第二個過程是知識模態和其他兩個模態的互動:首先用影象和文字模式的互動結果作為目標產品的初始表示,用三元組關係和尾實體的表面形態特徵作為的商品屬性和屬性值的表示。然後通過結構聚合模組傳播並在目標產品實體上聚合商品屬性和屬性值資訊。商品實體的最終表示可以用於各種下游任務。

(3)modal-task layer。影象模態、文字模態和知識模態的預訓練任務分別為掩碼物件模型、掩碼語言模型和連結預測模型。

五 實驗與實踐

1 實驗(論文的實驗)

K3M在淘寶4千萬商品上訓練,其中每個商品包含一個標題,一張圖片和一組相關的三元組。我們設定不同的模態缺失和噪音比率,在商品分類、產品對齊以及多模態問答3個下游任務上評估了K3M的效果,並與幾個常用的多模態預訓練模型對比:單流模型VLBERT,和兩個雙流模型ViLBERT和LXMERT。實驗結果如下:

圖3顯示了各種模型對商品分類的結果,可以觀察到: (1)當模態缺失或模態噪聲存在時,基線模型嚴重缺乏魯棒性。當TMR增加到20%、50%、80%和100%時,“ViLBERT”、“LXMERT”和“VLBERT”的效能從TMR=0%平均下降10.2%、24.4%、33.1%和40.2%。(2)帶有缺失和噪聲的文字模態對效能的影響大於影象模態。對比3個基線的“標題噪聲”和“影象噪聲”,隨著TNR的增加,模型效能下降了15.1% ~ 43.9%,而隨著INR的增加,模型效能下降了2.8% ~ 10.3%,說明文字資訊的作用更為重要。(3)引入知識圖可以顯著改善模態缺失和模態噪聲問題。在無PKG基線的基礎上,“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在TMR從0%增加到100%時的平均改善率分別為13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M達到了最先進的效能。它將 “ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各種模態缺失和模態噪聲設定下的結果提高了0.6%到4.5%。

圖4顯示了產品對齊任務的結果。在這個任務中,我們可以得到類似於在專案分類任務中的觀察結果。此外,對於模態缺失,模型效能不一定隨著缺失率的增加而降低,而是波動的:當缺失率(TMR、IMR和MMR)為50%或80%時,模型效能有時甚至比100%時更低。實際上,這個任務的本質是學習一個模型來評估兩個專案的多模態資訊的相似性。直覺上,當對齊的商品對中的兩個專案同時缺少標題或影象時,它們的資訊看起來比一個專案缺少標題或影象而另一個專案什麼都不缺時更相似。

表2顯示了多模態問答任務的排序結果。在這個任務中,我們也可以看到類似於在商品分類任務中的觀察結果。

2 實踐(阿里的業務應用效果)

1、餓了麼新零售導購演算法,離線演算法AUC提升0.2%絕對值;線上AB-Test實驗,流量5%,5天:CTR平均提高0.296%,CVR平均提高5.214%,CTR+CVR平均提高:5.51%;

2、淘寶主搜找相似服務,離線演算法AUC提升1%,業務方反饋是很大的提升;目前線上AB測試中;

3、阿里媽媽年貨節商品組合演算法,線上演算法,基於Emedding的實驗桶(5.52%)CTR指標相較於另外2個實驗桶(5.50%,5.48%)分別提高0.02%、0.04%的點選率,相對提高分別為0.363%、0.73%;

4、小蜜演算法團隊低意願下的相似商品的推薦,整體增加這一路的召回情況下,轉化能有2.3%到2.7%左右的提升,相對提升12.5%。之前版本相對提升11%。後續擴充套件到其他場景。

原文連結
本文為阿里雲原創內容,未經允許不得轉載。