1. 程式人生 > >領域應用 | 智慧導購?你只看到了阿里知識圖譜冰山一角

領域應用 | 智慧導購?你只看到了阿里知識圖譜冰山一角

在剛剛結束的2017第四屆世界網際網路大會上,評選出了年度18項代表性的領先科技成果,阿里雲ET大腦就是其中之一。眾所周知,融合了先進的大資料、人工智慧技術的阿里雲ET大腦已經在智慧城市、智慧交通等眾多領域得到了應用和推廣。但你知不知道,阿里巴巴還有一個智慧的“大腦”,是你每天都離不開的。它就是智慧消費導購與商品管控背後的“商品大腦”——阿里巴巴商品知識圖譜。

就讓我們一同走近阿里巴巴商品知識圖譜,看看它神祕的面紗背後,到底有哪些閃亮的“黑科技”。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

人工智慧應用的“基礎設施”

阿里巴巴商品知識圖譜已經廣泛應用於搜尋、前端導購、平臺治理、智慧問答、品牌商運營等核心和創新業務,但是對於普通消費者來說,感觸最深的還是它讓網上購物的體驗更佳。舉例來說,網上導購就是讓消費者更容易找到他們想要的東西。當買家在搜尋欄中輸入“我要一條漂亮的真絲絲巾”,阿里巴巴商品知識圖譜就會通過語法詞法分析提取出語義的要點,如“一”、“漂亮”、“真絲”、“絲巾”等關鍵詞,並據此幫買家實時搜尋到適合的商品。隨著大資料、人工智慧等技術的快速進步,阿里巴巴商品知識圖譜也變得越來越聰明,可以通過實時學習構建出場景,當你輸入“去東北滑雪要買什麼”時,搜尋結果中會出現與滑雪相關的各類商品資訊。

0?wx_fmt=png

淘寶網搜尋示例

什麼是知識圖譜?它是顯示知識發展程序與結構關係的一系列各種不同的圖形,用視覺化技術描述知識資源及其載體,挖掘、分析、構建、繪製和顯示知識及它們之間的相互關係。簡而言之,知識圖譜就是機器大腦中的知識庫,也是人工智慧應用的基礎設施。

在創造了“雙11”一個又一個銷售奇蹟之後,可想而知,阿里巴巴的商品庫有多麼龐大,來自於淘寶、天貓、1688、AliExpress等多個市場的資料,品牌商、行業運營、治理運營、消費者、國家機構、物流商等多種角色參與其中。讓電商大資料更好地服務消費者是阿里巴巴首先要解決的問題。

阿里巴巴選擇以知識圖譜的理念重構電商核心資料,通過知識表示技術實現商品資料的標準化, 通過命名實體識別和實體鏈指技術與內外部資料之間的深度互聯,通過邏輯推理校驗圖譜資料質量,進一步補全圖譜關係。

阿里巴巴商品知識圖譜的強大具體表現在哪些方面?它承載著商品標準化這一基礎性、根源性的工作,通過知識表示來規範對商品資料的描述。正因為如此,我們才能知道哪些商品是同樣一件東西,產品賣到了哪些市場,單品的銷量可以被精確統計……

阿里巴巴商品知識圖譜以商品、 標準產品、 標準品牌、 標準條碼、標準分類為核心,利用實體識別、實體鏈指和語義分析技術,整合關聯了諸如輿情、百科、國家行業標準等9大類一級本體,包含百億級別的三元組,形成了巨大的知識網。基於這個巨大的知識網路,消費者的購物體驗得到持續改善,消費者判斷的成本也逐步降低。

概括說,阿里巴巴商品知識圖譜綜合利用前沿的NLP、語義推理和深度學習等技術,打造了全網商品智慧服務體系,服務阿里巴巴生態中的各個角色。

也正因為如此,在11月7日舉行的2017中國大資料技術大會(BDTC)上,阿里商品知識圖譜榮獲“TOP10大資料應用最佳實踐獎”,贏得了市場和使用者的充分肯定。

0?wx_fmt=png

阿里巴巴業務平臺商品知識圖譜負責人張偉(左七)代表團隊接受頒獎

知識圖譜背後的“黑科技”

你可能每天都會到淘寶或天貓上逛逛,但可能從未留意過“後臺”到底是什麼能讓你的購物體驗變得更加順暢、輕鬆。阿里巴巴知識圖譜每天的攔截量達到千萬級別,全量智慧稽核次數達到億級別,最大限度地保護了智慧財產權,以及消費者權益。

阿里巴巴商品知識圖譜的一個核心功能是“平臺治理”,它是保證阿里巴巴商業生態安全、可靠執行的基本保障。舉例來說,阿里巴巴商品知識圖譜被用於阿里電商平臺的管控。過去,電商通常只能通過人工巡檢對商品釋出進行稽核,而現在面對海量的商品釋出量,人工巡檢模式捉襟見肘。形象地說,阿里巴巴商品知識圖譜就像拉起了一張過濾網,通過大資料分析、人工智慧等技術,篩查出不良資訊,阻止其進入阿里巴巴生態。

阿里巴巴商品知識圖譜能夠實現如此高效的智慧識別,其背後是否也有“黑科技”助陣?答案是肯定的。這裡主要介紹一下阿里巴巴商品知識圖譜是如何實現推理的。

阿里巴巴的業務知識/規則、管控知識/規則、國家行業規則錯綜複雜。針對這種情況,阿里巴巴設計了一套框架做知識表示和推理,並按照不同場景,將推理分為上下位和等價推理、不一致性推理、知識發現推理、本體概念推理等。

所謂上下位和等價推理,就是在檢索父類時,通過上下位推理把子類的物件召回,同時利用等價推理(實體的同義詞、變異詞、同款模型等),擴大召回。一個例子,比如需要攔截“產地為某核汙染區域的食品”,推理引擎翻譯為“找到產地為該區域且屬性項與產地同義、屬性值是該區域下位實體的食品,以及與命中的食品是同款的食品”。

另外,不一致推理是指在與問題賣家對弈的過程中,需要對商品標題、屬性、圖片、商品資質、賣家資質中的品牌、材質、成分等基礎資訊做一致性校驗。比如,標題中的品牌是Nike,而屬性或者吊牌中顯示的品牌是Nake,這些標稱不一致的商品即被推理引擎判斷為有問題的商品。

在推理引擎的背後,其實是把自然語言通過語義解析(Semantic Parsing)轉換為邏輯表示式(Logical Form)。語義解析採用了結合神經網路和符號邏輯執行的方式。而邏輯表示式又會觸發後續的邏輯推理和圖推理。

0?wx_fmt=png

推理引擎背後技術框架

伴隨著阿里巴巴商品知識圖譜的建設,阿里巴巴電商平臺的管控已從過去的“巡檢”模式升級為釋出端實時逐一檢查。阿里巴巴商品知識圖譜的推理引擎技術滿足了智慧化、自學習、毫秒級響應、可解釋等更高的技術要求。

三年,阿里巴巴知識圖譜到底做了什麼?

提到知識圖譜,很多人可能會首先想到谷歌、百度。他們確實起步比較早。不過,阿里巴巴僅用三年時間,就成功打造出國內最頂尖的電商域知識圖譜。阿里巴巴是以應用促創新的典型代表。正是因為有了阿里巴巴龐大而複雜的商業生態,正是出於讓使用者擁有更好體驗的不懈追求,才讓阿里巴巴在知識圖譜,甚至更廣義的人工智慧領域不斷取得突破。未來,阿里巴巴還將繼續深化與學界專家的合作,共同培育和打造開放的知識圖譜社群。

阿里巴巴商品知識圖譜在今年的杭州雲棲大會上一亮相就博得了滿堂彩。藉此機會,阿里巴巴廣邀全球技術領域的專家與學界大咖,共同研討知識圖譜領域的現狀與遠景,加深交流與互動。阿里巴巴早就與蘇州大學國家傑出青年基金獲得者張民教授及其團隊建立了合作,研究知識圖譜領域裡涉及的文字處理前沿技術,此外還與浙江大學陳華鈞教授的團隊建立了合作,主攻知識圖譜領域裡知識表示與推理前沿技術方向。阿里巴巴商品知識圖譜團隊還與國際上的專業組織頻繁交流與合作,全面開展資料合作。

讓人感到興奮的是,人工智慧領域的頂級會議之一——2018年國際人工智慧協會年會(AAAI)將在美國新奧爾良舉行,阿里巴巴有多篇論文入選,其中就包括阿里巴巴業務平臺事業部與蘇州大學知識圖譜聯合專案的兩篇論文。論文主要關注知識圖譜構建過程中文字挖掘核心技術的創新。

僅用三年時間,阿里巴巴就積累並形成了一個巨大的知識圖譜和海量的標準資料,通過與高校的聯合研發,引入前沿的自然語言處理、知識表示和邏輯推理技術等,形成了完整的知識圖譜技術平臺,打造了全網商品智慧服務體系,穩定支撐線上的全球消費者和賣家。知識圖譜已經成了阿里“新零售”和國際化發展的智慧引擎。

OpenKG.CN

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

0?wx_fmt=jpeg

點選閱讀原文,進入 OpenKG 部落格。