1. 程式人生 > 其它 >美團商品知識圖譜的構建及應用

美團商品知識圖譜的構建及應用

商品知識圖譜作為新零售行業數字化的基石,提供了圍繞商品的精準結構化理解,對業務應用起到了至關重要的作用。相比於美團大腦中原有的圍繞商戶的圖譜而言,商品圖譜需應對更加分散、複雜、海量的資料和業務場景,且面臨著資訊來源質量低、資料維度多、依賴常識以及專業知識等挑戰。本文將圍繞零售商品知識圖譜,介紹美團在商品層級建設、屬性體系建設、圖譜建設人效提升等方向的探索,希望對大家有所幫助或啟發。

  • 背景

    • 美團大腦

    • 在新零售領域的探索

    • 商品圖譜建設的目標

    • 商品圖譜建設的挑戰

  • 商品圖譜建設

    • 層級體系建設

    • 屬性維度建設

    • 效率提升

    • 人機結合-專業圖譜建設

  • 商品圖譜的落地應用

    • 結構化召回

    • 排序模型泛化性

    • 多模態圖譜嵌入

    • 使用者/商家端優化

  • 作者簡介

  • 招聘資訊

背景

美團大腦

近年來,人工智慧正在快速地改變人們的生活,背後其實有兩大技術驅動力:深度學習知識圖譜。我們將深度學習歸納為隱性的模型,它通常是面向某一個具體任務,比如說下圍棋、識別貓、人臉識別、語音識別等等。通常而言,在很多工上它能夠取得很優秀的結果,同時它也有一些侷限性,比如說它需要海量的訓練資料,以及強大的計算能力,難以進行跨任務的遷移,並且不具有較好的可解釋性。在另一方面,知識圖譜作為顯式模型,同樣也是人工智慧的一大技術驅動力,它能夠廣泛地適用於不同的任務。相比深度學習,知識圖譜中的知識可以沉澱,具有較強的可解釋性,與人類的思考更加貼近,為隱式的深度模型補充了人類的知識積累,和深度學習互為補充。因此,全球很多大型的網際網路公司都在知識圖譜領域積極進行佈局。

圖1 人工智慧兩大驅動力
美團連線了數億使用者和數千萬商戶,背後也蘊含著豐富的日常生活相關知識。2018年,美團知識圖譜團隊開始構建美團大腦,著力於利用知識圖譜技術賦能業務,進一步改善使用者體驗。具體來說,美團大腦會對美團業務中涉及到的千萬級別商家、億級別的菜品/商品、數十億的使用者評論,以及背後百萬級別的場景進行深入的理解和結構化的知識建模,構建人、店、商品、場景之間的知識關聯,從而形成生活服務領域大規模的知識圖譜。現階段,美團大腦已覆蓋了數十億實體,數百億三元組,在餐飲、外賣、酒店、金融等場景中驗證了知識圖譜的有效性。

圖2 美團大腦

在新零售領域的探索

美團逐步突破原有邊界,在生活服務領域探索新的業務,不僅侷限於通過外賣、餐飲幫大家“吃得更好”,近年來也逐步拓展到零售、出行等其他領域,幫大家“生活更好”。在零售領域中,美團先後落地了美團閃購、美團買菜、美團優選、團好貨等一系列相應的業務,逐步實現“萬物到家”的願景。為了更好地支援美團的新零售業務,我們需要對背後的零售商品建立知識圖譜,積累結構化資料,深入對零售領域內商品、使用者、屬性、場景等的理解,以便能更好地為使用者提供零售商品領域內的服務。相比於圍繞商戶的餐飲、外賣、酒店的等領域,零售商品領域對於知識圖譜的建設和應用提出了更大的挑戰。一方面,商品數量更加龐大,覆蓋的領域範圍也更加寬廣。另一方面,商品本身所具有的顯示資訊往往比較稀疏,很大程度上需要結合生活中的常識知識來進行推理,方可將隱藏在背後的數十維的屬性進行補齊,完成對商品完整的理解。在下圖的例子中,“樂事黃瓜味”這樣簡單的商品描述其實就對應著豐富的隱含資訊,只有對這些知識進行了結構化提取和相應的知識推理後,才能夠更好的支援下游搜尋、推薦等模組的優化。

圖3 商品結構化資訊的應用

商品圖譜建設的目標

我們針對美團零售業務的特點,制定了多層級、多維度、跨業務的零售商品知識圖譜體系。

圖4 商品知識圖譜體系
多層級在不同業務的不同應用場景下,對於“商品”的定義會有所差別,需要對各個不同顆粒度的商品進行理解。因此,在我們的零售商品知識圖譜中,建立了五層的層級體系,具體包括:

  • L1-商品SKU/SPU:對應業務中所售賣的商品顆粒度,是使用者交易的物件,往往為商戶下掛的商品,例如“望京家樂福所售賣的蒙牛低脂高鈣牛奶250ml盒裝”。這一層級也是作為商品圖譜的最底層的基石,將業務商品庫和圖譜知識進行打通關聯。
  • L2-標準商品:描述商品本身客觀事實的顆粒度,例如“蒙牛低脂高鈣牛奶250ml盒裝”,無論通過什麼渠道在什麼商戶購買,商品本身並沒有任何區別。商品條形碼則是在標準商品這層的客觀依據。在這一層級上,我們可以建模圍繞標準商品的客觀知識,例如同一個標準商品都會具有同樣的品牌、口味、包裝等屬性。
  • L3-抽象商品:進一步我們將標準商品向上抽象的商品系列,例如“蒙牛低脂高鈣牛奶”。在這一層級中,我們不再關注商品具體的包裝、規格等,將同系列的商品聚合為抽象商品,承載了使用者對於商品的主觀認知,包括使用者對商品系列的別名俗稱、品牌認知、主觀評價等。
  • L4-主體品類:描述商品主體的本質品類,列如“雞蛋”、“奶油草莓”、“臺式烤腸”等。這一層作為商品圖譜的後臺類目體系,以客觀的方式對商品領域的品類進行建模,承載了使用者對於商品的需求,例如各品牌各產地的雞蛋都能夠滿足使用者對於雞蛋這個品類的需求。
  • L5-業務類目:相比於主體品類的後臺類目體系,業務類目作為前臺類目體系會依據業務當前的發展階段進行人工定義和調整,各個業務會根據當前業務階段的特點和需求建立對應的前臺類目體系。

多維度

  • 商品屬性視角:圍繞商品本身,我們需要有海量的屬性維度來對商品進行描述。商品屬性維度主要分為兩類:一類是通用的屬性維度,包括品牌、規格、包裝、產地等;另一類是品類特有的屬性維度,例如對於牛奶品類我們會關注脂肪含量(全脂/低脂/脫脂牛奶)、儲存方式(常溫奶、冷藏奶)等。商品屬性主要是刻畫了商品的客觀知識,往往會建立在標準商品這一層級上。
  • 使用者認知視角:除了客觀的商品屬性維度以外,使用者往往對於商品會有一系列的主觀認知,例如商品的別名俗稱(“小黑瓶”、“快樂水”)、對於商品的評價(“香甜可口”、“入口即化”、“價效比高”)、商品的清單/榜單(“進口食品榜單”、“夏季消暑常備”)等維度。這些主觀認知往往會建立在抽象商品這一層級上。
  • 品類/類目視角:從品類/類目的視角來看,不同品類/類目也會有各自不同的關注點。在這一層級上,我們會建模各個品類/類目下有哪些典型的品牌、使用者關注哪些典型屬性、不同品類的復購週期是多長時間等。

跨業務美團大腦商品知識圖譜的目標是希望能夠對客觀世界中的商品知識進行建模,而非侷限於單個業務之中。在商品圖譜的五層體系中,標準商品、抽象商品、品類體系都是與業務解耦的,圍繞著客觀商品所建立的,包括圍繞這些層級建立的各維度資料也均是刻畫了商品領域的客觀知識。在應用於各個業務當中時,我們將客觀的圖譜知識向上關聯至業務前臺類目,向下關聯至業務商品SPU/SKU,則可以完成各個業務資料的接入,實現各個業務資料和客觀知識之間的聯通,提供更加全面的跨業務的全景資料視角。利用這樣的資料,在使用者方面我們可以更加全面的建模、分析使用者對於業務、品類的偏好,對於價格、品質等的敏感程度,在商品方面我們可以更準確的建模各品類的復購週期、地域/季節/節日偏好等。

商品圖譜建設的挑戰

商品知識圖譜的構建的挑戰主要來源於以下三個方面:

  1. 資訊來源質量低:商品本身所具有的資訊比較匱乏,往往以標題和圖片為主。尤其在美團閃購這樣LBS的電商場景下,商戶需要上傳大量的商品資料,對於商品資訊的錄入存在很多資訊不完整的情況。在標題和圖片之外,商品詳情雖然也蘊含著大量的知識資訊,但是其質量往往參差不齊,並且結構各異,從中進行知識挖掘難度極高。
  2. 資料維度多:在商品領域有眾多的資料維度需要進行建設。以商品屬性部分為例,我們不僅需要建設通用屬性,諸如品牌、規格、包裝、口味等維度,同時還要覆蓋各個品類/類目下特定關注的屬性維度,諸如脂肪含量、是否含糖、電池容量等,整體會涉及到上百維的屬性維度。因此,資料建設的效率問題也是一大挑戰。
  3. 依賴常識/專業知識:人們在日常生活中因為有很豐富的常識知識積累,可以通過很簡短的描述獲取其背後隱藏的商品資訊,例如在看到“樂事黃瓜”這樣一個商品的時候知道其實是樂事黃瓜味的薯片、看到“唐僧肉”的時候知道其實這不是一種肉類而是一種零食。因此,我們也需要探索結合常識知識的語義理解方法。同時,在醫藥、個護等領域中,圖譜的建設需要依賴較強的專業知識,例如疾病和藥品之間的關係,並且此類關係對於準確度的要求極高,需要做到所有知識都準確無誤,因此也需要較好的專家和演算法相結合的方式來進行高效的圖譜構建。

商品圖譜建設

在瞭解了圖譜建設的目標和挑戰後,接下來我們將介紹商品圖譜資料建設的具體方案。

層級體系建設

品類體系建設本質品類描述了商品本質所屬的最細類別,它聚合了一類商品,承載了使用者最終的消費需求,如“高鈣牛奶”、“牛肉乾”等。本質品類與類目也是有一定的區別,類目是若干品類的集合,它是抽象後的品類概念,不能夠明確到具體的某類商品品類上,如“乳製品”、“水果”等。品類打標:對商品圖譜的構建來說,關鍵的一步便是建立起商品和品類之間的關聯,即對商品打上品類標籤。通過商品和品類之間的關聯,我們可以建立起商品庫中的商品與使用者需求之間的關聯,進而將具體的商品展示到使用者面前。下面簡單介紹下品類打標方法:

  1. 品類詞表構建:品類打標首先需要構建一個初步的商品品類詞表。首先,我們通過對美團的各個電商業務的商品庫、搜尋日誌、商戶標籤等資料來源進行分詞、NER(參見文章《美團搜尋中NER技術的探索與實踐》)、新詞發現等操作,獲得初步的商品候選詞。然後,通過標註少量的樣本進行二分類模型的訓練(判斷一個詞是否是品類)。此外,我們通過結合主動學習的方法,從預測的結果中挑選出難以區分的樣本,進行再次標註,繼續迭代模型,直到模型收斂。
  2. 品類打標:首先,我們通過對商品標題進行命名實體識別,並結合上一步中的品類詞表來獲取商品中的候選品類,如識別“蒙牛脫脂牛奶 500ml”中的“脫脂牛奶”、“牛奶”等。然後,在獲得了商品以及對應的品類之後,我們利用監督資料訓練品類打標的二分類模型,輸入商品的SPU_ID和候選品類TAG構成的Pair,即<SPU_ID,TAG>,對它進行是否匹配的預測。具體的,我們一方面利用結合業務中豐富的半結構化語料構建圍繞標籤詞的統計特徵,另一方面利用命名實體識別、基於BERT的語義匹配等模型產出高階相關性特徵,在此基礎上,我們將上述特徵輸入到終判模型中進行模型訓練。
  3. 品類標籤後處理:在這一步中,我們對模型打上的品類進行後處理的一些策略,如基於圖片相關性、結合商品標題命名實體識別結果等的品類清洗策略。

通過上述的三個步驟,我們便可以建立起商品與品類之間的聯絡。品類體系:品類體系由品類和品類間關係構成。常見的品類關係包括同義詞和上下位等。在構建品類體系的過程中,常用的以下幾種方法來進行關係的補全。我們主要使用下面的一些方法:

  1. 基於規則的品類關係挖掘。在百科等通用語料資料中,有些品類具有固定模式的描述,如“玉米又名苞谷、苞米棒子、玉蜀黍、珍珠米等”、“榴蓮是著名熱帶水果之一”,因此,可以使用規則從中提取同義詞和上下位。
  2. 基於分類的品類關係挖掘。類似於上文中提到的品類打標方法,我們將同義詞和上下位構建為<TAG, TAG>的樣本,通過在商品庫、搜尋日誌、百科資料、UGC中挖掘的統計特徵以及基於Sentence-BERT得到的語義特徵,使用二分類模型進行品類關係是否成立的判斷。對於訓練得到的分類模型,我們同樣通過主動學習的方式,選出結果中的難分樣本,進行二次標註,進而不斷迭代資料,提高模型效能。
  3. 基於圖的品類關係推理。在獲得了初步的同義詞、上下位關係之後,我們使用已有的這些關係構建網路,使用GAE、VGAE等方法對網路進行鏈路預測,從而進行圖譜邊關係的補全。

圖5 商品圖譜品類體系的構建標準/抽象商品標準商品是描述商品本身客觀事實的顆粒度,和銷售渠道和商戶無關,而商品條形碼是標準商品這層的客觀依據。標品關聯即將同屬於某個商品條形碼的業務SKU/SPU,都正確關聯到該商品條形碼上,從而在標準商品層級上建模相應的客觀知識,例如標準商品對應的品牌、口味和包裝等屬性。下面通過一個案例來說明標品關聯的具體任務和方案。案例:下圖是一個公牛三米插線板的標準商品。商家錄入資訊的時候,會把商品直接關聯到商品條碼上。通過商戶錄入資料完成了一部分的標品關聯,但這部分比例比較少,且存在大量的連結缺失,連結錯誤的問題。另外,不同的商家對於同樣的標品,商品的標題的描述是千奇百怪的。我們的目標是補充缺失的連結,將商品關聯到正確的標品上。

圖6 商品圖譜標品關聯任務
針對標品關聯任務,我們構建了商品領域的同義詞判別模型:通過遠監督的方式利用商戶已經提供的少量有關聯的資料,作為已有的知識圖譜構造遠監督的訓練樣本。在模型中,正例是置信度比較高的標品碼;負例是原始資料中商品名或者影象類似但不屬於同一標品的SPU。構造準確率比較高的訓練樣本之後,通過BERT模型進行同義詞模型訓練。最後,通過模型自主去噪的方式,使得最終的準確率能夠達到99%以上。總體能做到品牌,規格,包裝等維度敏感。

圖7 商品圖譜標品關聯方法
抽象商品是使用者認知的層面,作為使用者所評論的物件,這一層對使用者偏好建模更加有效。同時,在決策資訊的展示上,抽象商品粒度也更符合使用者認知。例如下圖所示冰淇淋的排行榜中,羅列了使用者認知中抽象商品對應的SKU,然後對應展示不同抽象商品的特點、推薦理由等。抽象商品層整體的構建方式,和標準商品層比較類似,採用標品關聯的模型流程,並在資料構造部分進行規則上的調整。

圖8 商品圖譜抽象商品聚合

屬性維度建設

對一個商品的全面理解,需要涵蓋各個屬性維度。例如“樂事黃瓜味薯片”,需要挖掘它對應的品牌、品類、口味、包裝規格、標籤、產地以及使用者評論特色等屬性,才能在商品搜尋、推薦等場景中精準觸達使用者。商品屬性挖掘的源資料主要包含商品標題、商品圖片和半結構化資料三個維度。

圖9 商品圖譜屬性建設商品標題包含了對於商品最重要的資訊維度,同時,商品標題解析模型可以應用在查詢理解中,對使用者快速深入理解拆分,為下游的召回排序也能提供高階特徵。因此,這裡我們著重介紹一下利用商品標題進行屬性抽取的方法。商品標題解析整體可以建模成文字序列標註的任務。例如,對於商品標題“樂事黃瓜薯片”,目標是理解標題文字序列中各個成分,如樂事對應品牌,黃瓜對應口味,薯片是品類,因此我們使用命名實體識別(NER)模型進行商品標題解析。然而商品標題解析存在著三大挑戰:(1)上下文資訊少;(2)依賴常識知識;(3)標註資料通常有較多的噪音。為了解決前兩個挑戰,我們首先嚐試在模型中引入了圖譜資訊,主要包含以下三個維度:

  • 節點資訊:將圖譜實體作為詞典,以Soft-Lexicon方式接入,以此來緩解NER的邊界切分錯誤問題。
  • 關聯資訊:商品標題解析依賴常識知識,例如在缺乏常識的情況下,僅從標題“樂事黃瓜薯片”中,我們無法確認“黃瓜”是商品品類還是口味屬性。因此,我們引入知識圖譜的關聯資料緩解了常識知識缺失的問題:在知識圖譜中,樂事和薯片之間存在著“品牌-售賣-品類”的關聯關係,但是樂事跟黃瓜之間則沒有直接的關係,因此可以利用圖結構來緩解NER模型常識知識缺少的問題。具體來說,我們利用Graph Embedding的技術對圖譜進行的嵌入表徵,利用圖譜的圖結構資訊對圖譜中的單字,詞進行表示,然後將包含了圖譜結構資訊的嵌入表示和文字語義的表徵進行拼接融合,再接入到NER模型之中,使得模型能夠既考慮到語義,也考慮到常識知識的資訊。
  • 節點型別資訊:同一個詞可以代表不同的屬性,比如“黃瓜”既可以作為品類又可以作為屬性。因此,對圖譜進行Graph Embedding建模的時候,我們根據不同的型別對實體節點進行拆分。在將圖譜節點表徵接入NER模型中時,再利用注意力機制根據上下文來選擇更符合語義的實體型別對應的表徵 ,緩解不同型別下詞語含義不同的問題,實現不同型別實體的融合。

圖10 商品圖譜標題解析
接下來我們探討如何緩解標註噪音的問題。在標註過程中,少標漏標或錯標的問題無法避免,尤其像在商品標題NER這種標註比較複雜的問題上,尤為顯著。對於標註資料中的噪音問題,採用以下方式對噪音標註優化:不再採取原先非0即1的Hard的訓練方式,而是採用基於置信度資料的Soft訓練方式,然後再通過Bootstrapping的方式迭代交叉驗證,然後根據當前的訓練集的置信度進行調整。我們通過實驗驗證,使用Soft訓練+Bootstrapping多輪迭代的方式,在噪聲比例比較大的資料集上,模型效果得到了明顯提升。具體的方法可參見我們在NLPCC 2020比賽中的論文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》。

圖11 基於噪音標註的NER優化

效率提升

知識圖譜的構建往往是針對於各個領域維度的資料單獨制定的挖掘方式。這種挖掘方式重人工,比較低效,針對每個不同的領域、每個不同的資料維度,我們都需要定製化的去建設任務相關的特徵及標註資料。在商品場景下,挖掘的維度眾多,因此效率方面的提高也是至關重要的。我們首先將知識挖掘任務建模為三類分類任務,包括節點建模、關係建模以及節點關聯。在整個模型的訓練過程中,最需要進行效率優化的其實就是上述提到的兩個步驟:(1)針對任務的特徵提取;(2)針對任務的資料標註。

圖12 知識挖掘任務建模

針對特徵提取部分,我們摒棄了針對不同挖掘任務做定製化特徵挖掘的方式,而是嘗試將特徵和任務解耦,構建跨任務通用的圖譜挖掘特徵體系,利用海量的特徵庫來對目標的節點/關係/關聯進行表徵,並利用監督訓練資料來進行特徵的組合和選擇。具體的,我們構建的圖譜特徵體系主要由四個型別的特徵組構成:

  1. 規則模板型特徵主要是利用人工先驗知識,融合規則模型能力。
  2. 統計分佈型特徵,可以充分利用各類語料,基於不同語料不同層級維度進行統計。
  3. 句法分析型特徵則是利用NLP領域的模型能力,引入分詞、詞性、句法等維度特徵。
  4. 嵌入表示型特徵,則是利用高階模型能力,引入BERT等語義理解模型的能力。

圖13 知識挖掘特徵體系
針對資料標註部分,我們主要從三個角度來提升效率。

  1. 通過半監督學習,充分的利用未標註的資料進行預訓練。
  2. 通過主動學習技術,選擇對於模型來說能夠提供最多資訊增益的樣本進行標註。
  3. 利用遠端監督方法,通過已有的知識構造遠監督樣本進行模型訓練,儘可能的發揮出已有知識的價值。

人機結合-專業圖譜建設

當前醫藥健康行業結構性正在發生變化,消費者更加傾向於使用線上醫療解決方案和藥品配送服務,因此醫藥業務也逐漸成為了美團的重要業務之一。相比於普通商品知識圖譜的建設,藥品領域知識具有以下兩個特點:(1)具有極強的專業性,需要有相關背景知識才能判斷相應的屬性維度,例如藥品的適用症狀等。(2)準確度要求極高,對於強專業性知識不允許出錯,否則更容易導致嚴重後果。因此我們採用將智慧模型和專家知識結合的方式來構建藥品知識圖譜。藥品圖譜中的知識可以分為弱專業知識和強專業知識兩類,弱專業知識即一般人能夠較容易獲取和理解的知識,例如藥品的使用方法、適用人群等;而強專業知識則是需要具有專業背景的人才能夠判斷的知識,例如藥品的主治疾病、適應症狀等。由於這兩類資料對專家的依賴程度不同,因此我們分別採取不同的挖掘鏈路:

  • 弱專業知識:對於藥品圖譜的弱專業知識挖掘,我們從說明書、百科知識等資料來源中提取出相應的資訊,並結合通過專家知識沉澱出來的規則策略,藉助通用語義模型從中提取相應的知識,並通過專家的批量抽檢,完成資料的建設。
  • 強專業知識:對於藥品圖譜的強專業知識挖掘,為了確保相關知識百分百準確,我們通過模型提取出藥品相關屬性維度的候選後,將這些候選知識給到專家進行全量質檢。在這裡,我們主要是通過演算法的能力,儘可能減少專業藥師在基礎資料層面上的精力花費,提高專家從半結構化語料中提取專業知識的效率。

在藥品這類專業性強的領域,專業知識的表述和使用者習慣往往存在差異。因此我們除了挖掘強弱專業知識外,還需要填補專業知識和使用者之間的差異,才能將藥品圖譜更好的與下游應用結合。為此,我們從使用者行為日誌以及領域日常對話等資料來源中,挖掘了疾病、症狀和功效的別名資料,以及藥品通用名的俗稱資料,來打通使用者習慣和專業表述之間的通路。

圖14 人機結合的專業知識挖掘

商品圖譜的落地應用

自從谷歌將知識圖譜應用於搜尋引擎,並顯著提升了搜尋質量與使用者體驗,知識圖譜在各垂直領域場景都扮演起了重要的角色。在美團商品領域中,我們也將商品圖譜有效的應用在圍繞商品業務的搜尋、推薦、商家端、使用者端等多個下游場景當中,接下來我們舉幾個典型的案例進行介紹。

結構化召回

商品圖譜的資料,對於商品的理解很有幫助。例如,在商品搜尋中,如使用者在搜尋頭疼腰疼時,通過結構化的知識圖譜,才能知道什麼藥品是有止疼功效的;使用者在搜尋可愛多草莓、黃瓜薯片時,需要依賴圖譜的常識知識來理解使用者真正需求是冰淇淋和薯片,而不是草莓和黃瓜。

圖15 基於圖譜的結構化召回

排序模型泛化性

圖譜的類目資訊、品類資訊、屬性資訊,一方面可以作為比較強有力的相關性的判斷方法和干預手段,另一方面可以提供不同粗細粒度的商品聚合能力,作為泛化性特徵提供到排序模型,能有效地提升排序模型的泛化能力,對於使用者行為尤為稀疏的商品領域來說則具有著更高的價值。具體的特徵使用方式則包括:

  1. 通過各顆粒度進行商品聚合,以ID化特徵接入排序模型。
  2. 在各顆粒度聚合後進行統計特徵的建設。
  3. 通過圖嵌入表示的方式,將商品的高維向量表示和排序模型結合。

圖16 基於圖譜的排序優化

多模態圖譜嵌入

現有的研究工作已經在多個領域中證明了,將知識圖譜的資料進行嵌入表示,以高維向量表示的方式和排序模型結合,可以有效地通過引入外部知識達到緩解排序/推薦場景中資料稀疏以及冷啟動問題的效果。然而,傳統的圖譜嵌入的工作往往忽視了知識圖譜中的多模態資訊,例如商品領域中我們有商品的圖片、商品的標題、商家的介紹等非簡單的圖譜節點型的知識,這些資訊的引入也可以進一步提升圖譜嵌入對推薦/排序的資訊增益。

圖17 基於多模態圖譜的推薦-背景現有的圖譜嵌入方法在應用到多模態圖譜表徵的時候會存在一些問題,因為在多模態場景下,圖譜中邊的含義不再是單純的語義推理關係,而是存在多模態的資訊補充的關係,因此我們也針對多模態圖譜的特點,提出了MKG Entity Encoder和MKG Attention Layer來更好的建模多模態知識圖譜,並將其表徵有效的接入至推薦/排序模型中,具體方法可以參考我們在CIKM 2020發表了的論文《Multi-Modal Knowledge Graphs for Recommender Systems》。

圖18 基於圖譜的排序優化-模型

使用者/商家端優化

商品圖譜在使用者端提供顯式化的可解釋性資訊,輔助使用者進行決策。具體的呈現形式包括篩選項、特色標籤、榜單、推薦理由等。篩選項的維度受當前查詢詞對應品類下使用者關注的屬性類別決定。例如,當用戶搜尋查詢詞為薯片時,使用者通常關注的是它的口味、包裝、淨含量等,我們將會根據供給資料在這些維度下的列舉值展示篩選項。商品的特色標籤則來源於標題、商品詳情頁資訊與評論資料的提取,以簡潔明瞭的結構化資料展示商品特色。商品的推薦理由通過評論抽取與文字生成兩種渠道獲得,與查詢詞聯動,以使用者視角給出商品值得買的原因,而榜單資料則更為客觀,以銷量等真實資料,反應商品品質。在商家端,即商家釋出側,商品圖譜則提供了基於商品標題的實時預測能力,幫助商家進行類目的掛載、屬性資訊的完善。例如,商家填寫標題“德國進口德亞脫脂純牛奶12盒”後,商品圖譜提供的線上類目預測服務可將其掛載到“食品飲料-乳製品-純牛奶”類目,並通過實體識別服務,得到商品的“產地-德國”,“是否進口-進口”,“品牌-德亞”,“脂肪含量-脫脂”,“規格-12盒”的屬性資訊,預測完成後,由商家確認釋出,降低商家對商品資訊的維護成本,並提升釋出商品的資訊質量。

作者簡介

雪智,鳳嬌,姿雯,匡俊,林森,武威等,均來自美團平臺搜尋與NLP部NLP中心。