1. 程式人生 > >CNCC 2018技術論壇——知識圖譜賦能數字經濟

CNCC 2018技術論壇——知識圖譜賦能數字經濟

本週五報名參加了在杭州舉辦的CNCC 2018大會,聽取了關於知識圖譜的技術論壇——知識圖譜賦能數字經濟。共有6位專家講者帶來了精彩的主題報告,以及一個小時的Panel環節。本部落格將整理總結分享專家的報告,供大家參考。

1、周傲英:資料是催生數字經濟的新動能——兼談知識圖譜的作用

數字經濟是什麼?新動能是什麼?

數字經濟最早在20年前提出,代表的是數字化,2016年G20峰會上,數字經濟被再次提出,數字經濟發展的根本是網際網路。數字經濟是一種新的經濟形態,數字經濟的基本特徵有3點:

  1. 資料資源為重要生產要素,以現代資訊網路為主要載體;
  2. 以資訊通訊技術融合應用,全要素數字化轉型為推動力;
  3. 促進公平與效率更加統一。

具體解釋是:同農業經濟時代中農藥、化肥、種子,工業時代中廠房、石油、機器是生產必不可少的要素一樣,在數字經濟時代,資料是最重要的生產要素。現代資訊網路就是指網際網路,即數字經濟發生在網際網路上。融合應用指“網際網路+”,傳統行業與網際網路合二為一,融合的推動力是全部要素的數字化。
數字經濟將帶來重大的時代轉型:生產方式變革,生產關係再造,經濟結構重組,生活方式鉅變。
農業經濟\longrightarrow工業經濟\longrightarrow數字經濟

與數字經濟密切相關的是“網際網路+”,網際網路“+”傳統經濟=數字經濟。“+”表示融入與引領,更表示升級換代,創新發展,網際網路是傳統經濟的畫龍點睛之筆。因此,“網際網路+”(Internet Plus)的真正含義是轉型(Paradigm Shift),代表著換套路

,包括思維方式的改變以及由此帶來的業務邏輯的改變。

這裡面最本質的是網際網路,如今網際網路已經深刻地改變世界。網際網路為什麼能改變世界,首先是因為網際網路改變了人與人之間的關係:1)人和人之間的連線方式(people connection),anyone, anywhen, anywhere; 2)注重使用者體驗(user experience);3)行為資料線上收集和使用(behavior data),網際網路的主要特徵是免費,免費使用的背後是個人資料的不斷收集,這些資料其實就是個人隱私,正如李彥巨集所說:“中國人願意用自己的隱私換取服務的便利”,可以說我們用我們的隱私資料換取了網際網路的蓬勃發展。人是社會關係的總和,人和人之間的關係變了,人就變了,世界也就變了。其次是網際網路契合了人性最本質的述求——平等,有了平等就會有民主(徳先生),同時用資料用演算法說話,就有了科學(賽先生)。最後,網際網路對中國意味著重要機遇,我們有中國夢的內因以及全球化的外因。

網際網路企業靠網際網路經濟賺錢,從最開始的流量變現,粉絲(眼球)經濟,到資料變現,靠精準廣告/營銷/推薦,往後將是分享經濟(租賃經濟,節儉經濟),是網際網路應該推從的,是網際網路經濟的下半場。網際網路時代做的是連線,以打破資訊不對稱為幌子造就了更大的資訊不對稱,因此,下一步要做的是去中心化。總結網際網路的發展脈絡如下:
網際網路—>大資料—>網際網路+ —>創業創新—>供給側改革—>分享經濟—>人工智慧—>區塊鏈

分享經濟最典型的是共享單車,分享經濟的要旨是盤活閒置的資源,提高效率,是市場經濟和人類文明的高階階段。目前文明還沒達到這個高度,需要發展新技術來建立信任,區塊鏈的作用就在此。

大資料是將資料彙集、關聯、使用起來,與資料大小關係不大,大資料是說資料很重要,其重要程度堪比引發第二次工業革命的交流電。網際網路時代講大資料是因為網際網路真正將資料用起來了,網際網路企業本質是大資料企業。資料是新動能(new power),是催生數字經濟的新動能。知識圖譜是非結構化資料處理的有效手段,把資料變成知識最終形成智慧,推動數字經濟向縱深發展。

2、周國棟——語言理解與知識圖譜

知識圖譜/語言理解是實現數字經濟必不可少的一種機制或工具,認知科學的關鍵是解決語言機制問題,自然語言理解是人工智慧皇冠上的明珠,同時也是實現人工智慧的攔路虎。人工智慧發展三個階段中的前兩個階段:計算智慧(能存會寫)、感知智慧(能聽會說,能看會認)已經基本實現,但第三個階段認知智慧(能理解會思考)還很遙遠。要解決這個問題需要我們對人類的認知有一定的瞭解,而自然語言是我們窺探認知的很好的突破口。自然語言是人類思維和交際的一個符號系統,是一個並行的音形義相結合的結構系統,是人類對現實世界的認知反應。包含三方面的東西:1)語言是有結構的,喬姆斯基語言體系,目前我們還只是實現了喬姆斯基語言體系最簡單的。2)語言是聲音、形式和意義相結合的符號系統,有時用聲音代表語義(香菇代表想哭),有時用形狀代表語義(囧),以上兩點形式主義語言學研究比較多。3)語言是人類最重要的交際工具和資訊載體,即考慮語言的功能與用途,代表是功能主義語言學。4)語言是人類對現實世界認知的結果,是認知過程的產物。

自然語言理解的根本任務是篇章理解,自然語言由字、詞、短語由下到上逐層構造而成,自然語言理解是一個非常困難的過程,為了解決這個問題,可以將自然語言理解分為三個階段:詞彙級、句子級和篇章級,主要工作分別對應結構解析、淺層語義解析和深層語用理解。人類理解自然語言通常是在篇章級進行的,即不能斷章取義。目前篇章理解才剛剛入門,目前研究比較多的是連貫性和銜接性,連貫性即上下文是否通順,邏輯上是否滿足層次結構;銜接性即資訊(事情1,事情2……)是否能銜接上,解決這兩點的關鍵是弄清楚文章的結構。另一個研究比較多的是跨篇章性,跨篇章性指我們在弄清楚文章表面意思、邏輯結構後,理解文章需要一些背景知識,這時就需要知識圖譜(概念、實體及其關係)。連貫性、銜接性和跨篇章性大體上從形式上理解了文章的資訊。但理解文章的意圖還需要有語境(情景),這時就需要情景圖譜,文章被不同文化的人接受則還需要文化圖譜。

知識圖譜是跨篇章資訊的一種有效組織方式,深層意思的理解需要知識圖譜,需要場景,需要領域知識(domain knowledge)。除了傳統的實體-實體之間的關係,還需要事件知識圖譜,甚至更抽象的場景圖譜。

自然語言理解和知識圖譜就像一對孿生兄弟,彼此相互需要,相互促進。

3、唐傑——Representation Learning for Big Network

知識圖譜是用圖模型建模知識,對圖的挖掘與分析能夠發現圖中的隱藏知識,圖嵌入(graph embedding),圖卷積等表示學習是目前最火熱的圖挖掘、圖計算手段,被廣泛應用於知識圖譜的分析。唐傑教授今天的報告就是關於大規模網路表示學習的進展。

從大規模網路資料中學出節點、邊、子圖的表示

網際網路上使用者以及使用者行為形成了一個大規模的社交網路,網路中每個節點代表一個個體/實體,個體/實體之間有一種/多種相關性,比如好友關係,構成了網路的邊。網路可以看作是靜態圖也可以看作是動態圖,動態圖考慮使用者之間的互動構成的邊,比如互發訊息,隨著時間的推移,這種邊有時有有時沒有。有了這種大規模的網路之後,希望從中能夠挖掘一些pattern,然後用這些pattern做一些預測等。

社交網路可以從兩個維度進行分析,一個是社交的角度,分別從網路中使用者、關係(邊)、結構展開研究;另一個是資料的角度,體現在資料的規模,資料的高度動態、流式資料(stream data)、異構,既有使用者也有實體。網路中有三方面的東西要做表示學習:一是節點,怎麼學出節點的低維對映,希望label相同的節點能夠距離比較近,label不同的節點距離比較遠;同樣邊和子圖(subgraph)也要做表示學習。

表示學習最具代表性的是word2vec,對每一個單詞學習一個表示。文字中單詞最簡單的表示是採用詞袋模型(bag-of-words)將單詞表示成一個高維向量(詞彙表大小維),然後從高維向量做一個低維對映。回到網路的表示學習,最首要任務是建立網路節點的Context,最簡單的是採用一度鄰居,但是這會造成Context的不平衡,比如:微博大V的粉絲非常的多,但普通人的粉絲則比較的少。為了解決這個問題,KDD 2014年一篇文章提出了DeepWalk,從任意一個節點進行隨機遊走(random walk),這樣就保證了每個節點的Context規模是一樣的,剩下的工作就和word2vec類似。之後在此基礎上,LINE演算法引入了二階相似度,PTE演算法將異構網路和有監督資訊結合進來,Node2vec演算法則更好的考慮了網路中節點的關係,如朋友的朋友是朋友,以及朋友的朋友不是朋友。

Algorithm Matrix
DeepWalk log(vol(G)(1Tr=1T(D1A)rD1)logb\log\Big(vol(G)\big(\frac{1}{T}\sum_{r=1}^T(D^{-1}A)^rD^{-1}\Big)-\log b
LINE log(vol(G)D1AD1)logb\log(vol(G)D^{-1}AD^{-1})-\log b
PTE log([α vol(Gww)(Drowww)1Aww(Dcolww)1β vol(Gdw)(Drowdw)1Adw(Dcoldw)1γ vol(Glw)(Drowlw)1Alw(Dcollw)1])logb\log\Bigg(\begin{bmatrix}\alpha\: vol(G_{ww})(D_{row}^{ww})^{-1}A_{ww}(D_{col}^{ww})^{-1}\\ \beta\: vol(G_{dw})(D_{row}^{dw})^{-1}A_{dw}(D_{col}^{dw})^{-1}\\ \gamma\: vol(G_{lw})(D_{row}^{lw})^{-1}A_{lw}(D_{col}^{lw})^{-1}\\\end{bmatrix}\Bigg)-\log b
node2vec log(12Tr=1T(uXw,uPc,w,ur+uXc,uPw,c,ur)(uXw,u)(uXc,u))logb\log\Big(\frac{\frac{1}{2T}\sum_{r=1}^T(\sum_uX_{w,u}\underline{P}_{c,w,u}^r+\sum_uX_{c,u}\underline{P}_{w,c,u}^r)}{(\sum_uX_{w,u})(\sum_uX_{c,u})}\Big)-\log b

表格中,左邊是演算法,右邊是歸一化的結果,logb\log b是一個標量,可以省略,因此所有的方法都在做矩陣分解,有了統一的矩陣形式,就可以設計一個unify的framework,做一個矩陣分解,所有的問題就都解決了。

用學出的表示做使用者行為預測

為了測試模型在實際應用中的效能,模型被應用到了工業界資料的商品推薦中。在做商品推薦中,有一個Social Influence的概念:使用者與使用者之間存在影響力。因此對使用者行為進行預測時需要考慮使用者形成的網路,比如下面這幅圖中預測V1V_1V2V_2是否會購買iPhone XS

實際V2V_2買iPhone XS的概率要高於V1V_1,為什麼呢?V1V_1V2V_2的區別在於,V1V_1中多了幾條邊BEBE,EFEF,ADAD,因此可以感性的解釋:如果我們的六個朋友都購買了iPhone XS,並且他們互相不認識,從認知的角度上說,如果我們的大學同學、高中同學、初中同學、家人等都買了iPhone XS,那麼我們很大程度上也會購買。在進入使用者行為預測時,傳統方法都會定義很多特徵,特徵選取的好壞會很大程度上決定模型的效能,解決這個問題的一個辦法是將表示學習結合起來(具體見唐傑教授發表在KDD 2018上的論文DeepInf: Social Influence Prediction with Deep Learning):

首先對拿到的網路進行表示學習,如藍色所示,然後進行歸一化,避免overfitting,接著就可以輸入預測模型中,當然在具體應用中可以加一些工業界常用的特徵,如:性別,年齡,最後做一個Convolution,實驗結果在多個數據集上都有5%~10%的提高。模型也實際應用到了騰訊DNF,QQ飛車,王者榮耀等遊戲的道具推薦上,點選率都有100%+的提升。

將使用者反饋結合到網路中

在真實應用中,使用者會給很多反饋,怎麼從使用者反饋中學習?因為大部分學習場景中標註資料往往不夠,如使用者喜不喜歡某個商品,這種問題通常是一個cold start(冷啟動)的問題。在網站上設定一個機器人,向用戶提出一些問題(使用者不需要回答,只需要點贊或者叉掉),用以獲得使用者的反饋,該問題可以看作是一個計算問題:在什麼時候對誰應該問什麼問題。於是在NIPS 2018上唐傑教授發表了論文Bandit Learning with Implicit Feedback,定義了一個Examination-click bandit model。

虎嵩林——知識驅動的網際網路變革

主要從系統的角度簡述了知識在系統發展中扮演的角色,以及知識圖譜在落地中的問題與嘗試。

從網際網路每天幾十PB的資料,到移動網際網路每天TB級的視訊影象資料,到現在大熱的物聯網,資料規模一直在快速增長。資料規模的增長也會促進計算體系的變化,最早的計算結構是計算機+資料+演算法在單機上構成了比較合理的程式,隨著資料不斷增加,需要越來越多的分散式計算能力,cluster開始扮演越來越重要的角色,可以認為cluster替代了計算機,另一方面對資料的管理也提出了更高的要求,在這個時期,對元資料給與了更大的重視,計算結構成為cluster+資料+元資料+演算法。再後來,cluster也逐漸不能滿足快速增長的資料要求,cloud開始大熱,對元資料的管理也開始向語義、知識靠攏,演算法上深度學習等開始流行,計算結構變成cloud+資料+元資料+演算法。

而知識圖譜的發展與重視,主要是機器學習存在的一些問題:1)深陷概率關聯的泥潭而忽視了因果;2)缺背景、缺常識、缺推理,資料已經無法滿足我們對外提供服務的需求,因此在算力和演算法的支援下存在新動能的切換,即從資料驅動到知識驅動。有了知識,知識會對經濟產生什麼作用?價值增長點在哪裡?不僅是是網際網路改變人類的生活方式,更大的價值可能是對人類生產效率的提升。

當然,知識圖譜在落地過程中也還存在一些問題,從技術的角度,知識圖譜的構建過程可以分為:知識表示,知識抽取,知識融合,知識推理。在知識表示中,各種異構的知識如何表示:如圖結構、生成式規則、流程等。知識抽取中,如何把社交、事件、實體等關係聯合抽取。知識融合中,如何與現有的知識、規則融合。知識推理中,混合推理,多時態推理如何進行。

王昊奮——從人工智慧到開放知識圖譜:數字經濟大潮下的新機遇

主要彙報OpenKG的一些工作。

知識圖譜是工業界提出的一個概念,本質是大資料驅動下的知識工程的重述。伴隨著AI的起起伏伏,知識圖譜的發展也經歷了以下階段:

從50年代到70年代,主要是符號邏輯、神經網路和產生式規則;從70年代到90年代,是專家系統,以及以知識庫+推理=智慧而誕生的很多偉大系統;90年代初,全球資訊網開始慢慢的孕育,產生了很多人工構建的知識庫,本體也有哲學概念發展到計算機概念;2000年以後,伴隨著網際網路的快速發展,語義網開始慢慢成長,誕生了群智的代表維基百科;2006年之後,因為各種技術的成熟,大資料的出現,算力的提升,演算法的提升,出現了各種人機協同的高質量知識庫,以及以此為基礎的應用。可以看見知識圖譜的出現不是一蹴而就,而是多學科的融合,包括知識表示,自然語言處理,web,AI等各個方面。

在數字經濟中知識圖譜的主要應用是:KG輔助搜尋KG4SEO,KG輔助問答KG4BOTS,KG輔助決策。因為深度學習的火熱,深度學習常被用來和知識圖譜比較,兩者分別代表”術“和”數“。深度學習其實是一種歸納學習,對應於聰明的人,更多解決的是感知,識別,判斷的問題;對於很多其他任務,通常是資料/知識驅動的,需要考慮機器是否足夠知識淵博,更多關注的是認知智慧時代的思考、語言和推理,這更多需要知識圖譜帶來的紅利,因此,兩者是相輔相成的。

接下來更多介紹的是OpenKG的一些東西,OpenKG=中文+開放+知識圖譜,希望推動構建以中文為核心的最具影響力的開放域知識圖譜。OpenKG 1.0的主要工作是收集各種各樣的資料,收集各種各樣的工具,形成很多的成員。但要建一個知識圖譜,要怎麼做還是不清楚,因此在OpenKG 2.0,形成了以下幾件事情:1)cnSchema,是schema.org的一個同步版,同時包括一些微創新,提供可供參考的擴充套件的資料描述和介面定義標準;2)OpenBase,知識圖譜眾包平臺,基於cnSchema和積累的工具、資料、粗知識等,通過眾包機制形成細知識;3)OpenBot,圖譜轉化為對話機器人的平臺工具。

加入Openbase成為貢獻者或者瞭解更多關於Openbase的資訊,可以參考其官網Openbase