CNCC 2018技術論壇——知識圖譜賦能數字經濟

阿新 • • 發佈：2018-12-17

本週五報名參加了在杭州舉辦的CNCC 2018大會，聽取了關於知識圖譜的技術論壇——知識圖譜賦能數字經濟。共有6位專家講者帶來了精彩的主題報告，以及一個小時的Panel環節。本部落格將整理總結分享專家的報告，供大家參考。

1、周傲英：資料是催生數字經濟的新動能——兼談知識圖譜的作用

數字經濟是什麼？新動能是什麼？

數字經濟最早在20年前提出，代表的是數字化，2016年G20峰會上，數字經濟被再次提出，數字經濟發展的根本是網際網路。數字經濟是一種新的經濟形態，數字經濟的基本特徵有3點：

以資料資源為重要生產要素，以現代資訊網路為主要載體；
以資訊通訊技術融合應用，全要素數字化轉型為推動力；
促進公平與效率更加統一。

具體解釋是：同農業經濟時代中農藥、化肥、種子，工業時代中廠房、石油、機器是生產必不可少的要素一樣，在數字經濟時代，資料是最重要的生產要素。現代資訊網路就是指網際網路，即數字經濟發生在網際網路上。融合應用指“網際網路+”，傳統行業與網際網路合二為一，融合的推動力是全部要素的數字化。
數字經濟將帶來重大的時代轉型：生產方式變革，生產關係再造，經濟結構重組，生活方式鉅變。
$農業經濟\longrightarrow工業經濟\longrightarrow數字經濟$

與數字經濟密切相關的是“網際網路+”，網際網路“+”傳統經濟=數字經濟。“+”表示融入與引領，更表示升級換代，創新發展，網際網路是傳統經濟的畫龍點睛之筆。因此，“網際網路+”（Internet Plus）的真正含義是轉型（Paradigm Shift），代表著換套路

，包括思維方式的改變以及由此帶來的業務邏輯的改變。

這裡面最本質的是網際網路，如今網際網路已經深刻地改變世界。網際網路為什麼能改變世界，首先是因為網際網路改變了人與人之間的關係：1）人和人之間的連線方式（people connection），anyone, anywhen, anywhere； 2）注重使用者體驗（user experience）；3）行為資料線上收集和使用（behavior data），網際網路的主要特徵是免費，免費使用的背後是個人資料的不斷收集，這些資料其實就是個人隱私，正如李彥巨集所說：“中國人願意用自己的隱私換取服務的便利”，可以說我們用我們的隱私資料換取了網際網路的蓬勃發展。人是社會關係的總和，人和人之間的關係變了，人就變了，世界也就變了。其次是網際網路契合了人性最本質的述求——平等，有了平等就會有民主（徳先生），同時用資料用演算法說話，就有了科學（賽先生）。最後，網際網路對中國意味著重要機遇，我們有中國夢的內因以及全球化的外因。

網際網路企業靠網際網路經濟賺錢，從最開始的流量變現，粉絲（眼球）經濟，到資料變現，靠精準廣告/營銷/推薦，往後將是分享經濟（租賃經濟，節儉經濟），是網際網路應該推從的，是網際網路經濟的下半場。網際網路時代做的是連線，以打破資訊不對稱為幌子造就了更大的資訊不對稱，因此，下一步要做的是去中心化。總結網際網路的發展脈絡如下：
網際網路—>大資料—>網際網路+ —>創業創新—>供給側改革—>分享經濟—>人工智慧—>區塊鏈

分享經濟最典型的是共享單車，分享經濟的要旨是盤活閒置的資源，提高效率，是市場經濟和人類文明的高階階段。目前文明還沒達到這個高度，需要發展新技術來建立信任，區塊鏈的作用就在此。

大資料是將資料彙集、關聯、使用起來，與資料大小關係不大，大資料是說資料很重要，其重要程度堪比引發第二次工業革命的交流電。網際網路時代講大資料是因為網際網路真正將資料用起來了，網際網路企業本質是大資料企業。資料是新動能（new power），是催生數字經濟的新動能。知識圖譜是非結構化資料處理的有效手段，把資料變成知識最終形成智慧，推動數字經濟向縱深發展。

2、周國棟——語言理解與知識圖譜

知識圖譜/語言理解是實現數字經濟必不可少的一種機制或工具，認知科學的關鍵是解決語言機制問題，自然語言理解是人工智慧皇冠上的明珠，同時也是實現人工智慧的攔路虎。人工智慧發展三個階段中的前兩個階段：計算智慧（能存會寫）、感知智慧（能聽會說，能看會認）已經基本實現，但第三個階段認知智慧（能理解會思考）還很遙遠。要解決這個問題需要我們對人類的認知有一定的瞭解，而自然語言是我們窺探認知的很好的突破口。自然語言是人類思維和交際的一個符號系統，是一個並行的音形義相結合的結構系統，是人類對現實世界的認知反應。包含三方面的東西：1）語言是有結構的，喬姆斯基語言體系，目前我們還只是實現了喬姆斯基語言體系最簡單的。2）語言是聲音、形式和意義相結合的符號系統，有時用聲音代表語義（香菇代表想哭），有時用形狀代表語義（囧），以上兩點形式主義語言學研究比較多。3）語言是人類最重要的交際工具和資訊載體，即考慮語言的功能與用途，代表是功能主義語言學。4）語言是人類對現實世界認知的結果，是認知過程的產物。

自然語言理解的根本任務是篇章理解，自然語言由字、詞、短語由下到上逐層構造而成，自然語言理解是一個非常困難的過程，為了解決這個問題，可以將自然語言理解分為三個階段：詞彙級、句子級和篇章級，主要工作分別對應結構解析、淺層語義解析和深層語用理解。人類理解自然語言通常是在篇章級進行的，即不能斷章取義。目前篇章理解才剛剛入門，目前研究比較多的是連貫性和銜接性，連貫性即上下文是否通順，邏輯上是否滿足層次結構；銜接性即資訊（事情1，事情2……）是否能銜接上，解決這兩點的關鍵是弄清楚文章的結構。另一個研究比較多的是跨篇章性，跨篇章性指我們在弄清楚文章表面意思、邏輯結構後，理解文章需要一些背景知識，這時就需要知識圖譜（概念、實體及其關係）。連貫性、銜接性和跨篇章性大體上從形式上理解了文章的資訊。但理解文章的意圖還需要有語境（情景），這時就需要情景圖譜，文章被不同文化的人接受則還需要文化圖譜。

知識圖譜是跨篇章資訊的一種有效組織方式，深層意思的理解需要知識圖譜，需要場景，需要領域知識（domain knowledge）。除了傳統的實體-實體之間的關係，還需要事件知識圖譜，甚至更抽象的場景圖譜。

自然語言理解和知識圖譜就像一對孿生兄弟，彼此相互需要，相互促進。

3、唐傑——Representation Learning for Big Network

知識圖譜是用圖模型建模知識，對圖的挖掘與分析能夠發現圖中的隱藏知識，圖嵌入（graph embedding），圖卷積等表示學習是目前最火熱的圖挖掘、圖計算手段，被廣泛應用於知識圖譜的分析。唐傑教授今天的報告就是關於大規模網路表示學習的進展。

從大規模網路資料中學出節點、邊、子圖的表示

網際網路上使用者以及使用者行為形成了一個大規模的社交網路，網路中每個節點代表一個個體/實體，個體/實體之間有一種/多種相關性，比如好友關係，構成了網路的邊。網路可以看作是靜態圖也可以看作是動態圖，動態圖考慮使用者之間的互動構成的邊，比如互發訊息，隨著時間的推移，這種邊有時有有時沒有。有了這種大規模的網路之後，希望從中能夠挖掘一些pattern，然後用這些pattern做一些預測等。

社交網路可以從兩個維度進行分析，一個是社交的角度，分別從網路中使用者、關係（邊）、結構展開研究；另一個是資料的角度，體現在資料的規模，資料的高度動態、流式資料（stream data）、異構，既有使用者也有實體。網路中有三方面的東西要做表示學習：一是節點，怎麼學出節點的低維對映，希望label相同的節點能夠距離比較近，label不同的節點距離比較遠；同樣邊和子圖（subgraph）也要做表示學習。

表示學習最具代表性的是word2vec，對每一個單詞學習一個表示。文字中單詞最簡單的表示是採用詞袋模型（bag-of-words）將單詞表示成一個高維向量（詞彙表大小維），然後從高維向量做一個低維對映。回到網路的表示學習，最首要任務是建立網路節點的Context，最簡單的是採用一度鄰居，但是這會造成Context的不平衡，比如：微博大V的粉絲非常的多，但普通人的粉絲則比較的少。為了解決這個問題，KDD 2014年一篇文章提出了DeepWalk，從任意一個節點進行隨機遊走（random walk），這樣就保證了每個節點的Context規模是一樣的，剩下的工作就和word2vec類似。之後在此基礎上，LINE演算法引入了二階相似度，PTE演算法將異構網路和有監督資訊結合進來，Node2vec演算法則更好的考慮了網路中節點的關係，如朋友的朋友是朋友，以及朋友的朋友不是朋友。

Algorithm	Matrix
DeepWalk	$\log\Big(vol(G)\big(\frac{1}{T}\sum_{r=1}^T(D^{-1}A)^rD^{-1}\Big)-\log b$
LINE	$\log(vol(G)D^{-1}AD^{-1})-\log b$
PTE	$\log\Bigg(\begin{bmatrix}\alpha\: vol(G_{ww})(D_{row}^{ww})^{-1}A_{ww}(D_{col}^{ww})^{-1}\\ \beta\: vol(G_{dw})(D_{row}^{dw})^{-1}A_{dw}(D_{col}^{dw})^{-1}\\ \gamma\: vol(G_{lw})(D_{row}^{lw})^{-1}A_{lw}(D_{col}^{lw})^{-1}\\\end{bmatrix}\Bigg)-\log b$
node2vec	$\log\Big(\frac{\frac{1}{2T}\sum_{r=1}^T(\sum_uX_{w,u}\underline{P}_{c,w,u}^r+\sum_uX_{c,u}\underline{P}_{w,c,u}^r)}{(\sum_uX_{w,u})(\sum_uX_{c,u})}\Big)-\log b$

表格中，左邊是演算法，右邊是歸一化的結果， $\log b$ 是一個標量，可以省略，因此所有的方法都在做矩陣分解，有了統一的矩陣形式，就可以設計一個unify的framework，做一個矩陣分解，所有的問題就都解決了。

用學出的表示做使用者行為預測

為了測試模型在實際應用中的效能，模型被應用到了工業界資料的商品推薦中。在做商品推薦中，有一個Social Influence的概念：使用者與使用者之間存在影響力。因此對使用者行為進行預測時需要考慮使用者形成的網路，比如下面這幅圖中預測 $V_1$ ， $V_2$ 是否會購買iPhone XS

實際 $V_2$ 買iPhone XS的概率要高於 $V_1$ ，為什麼呢？ $V_1$ 和 $V_2$ 的區別在於， $V_1$ 中多了幾條邊 $BE$ , $EF$ , $AD$ ，因此可以感性的解釋：如果我們的六個朋友都購買了iPhone XS，並且他們互相不認識，從認知的角度上說，如果我們的大學同學、高中同學、初中同學、家人等都買了iPhone XS，那麼我們很大程度上也會購買。在進入使用者行為預測時，傳統方法都會定義很多特徵，特徵選取的好壞會很大程度上決定模型的效能，解決這個問題的一個辦法是將表示學習結合起來（具體見唐傑教授發表在KDD 2018上的論文DeepInf: Social Influence Prediction with Deep Learning）：

首先對拿到的網路進行表示學習，如藍色所示，然後進行歸一化，避免overfitting，接著就可以輸入預測模型中，當然在具體應用中可以加一些工業界常用的特徵，如：性別，年齡，最後做一個Convolution，實驗結果在多個數據集上都有5%~10%的提高。模型也實際應用到了騰訊DNF，QQ飛車，王者榮耀等遊戲的道具推薦上，點選率都有100%+的提升。

將使用者反饋結合到網路中

在真實應用中，使用者會給很多反饋，怎麼從使用者反饋中學習？因為大部分學習場景中標註資料往往不夠，如使用者喜不喜歡某個商品，這種問題通常是一個cold start（冷啟動）的問題。在網站上設定一個機器人，向用戶提出一些問題（使用者不需要回答，只需要點贊或者叉掉），用以獲得使用者的反饋，該問題可以看作是一個計算問題：在什麼時候對誰應該問什麼問題。於是在NIPS 2018上唐傑教授發表了論文Bandit Learning with Implicit Feedback，定義了一個Examination-click bandit model。

虎嵩林——知識驅動的網際網路變革

主要從系統的角度簡述了知識在系統發展中扮演的角色，以及知識圖譜在落地中的問題與嘗試。

從網際網路每天幾十PB的資料，到移動網際網路每天TB級的視訊影象資料，到現在大熱的物聯網，資料規模一直在快速增長。資料規模的增長也會促進計算體系的變化，最早的計算結構是計算機+資料+演算法在單機上構成了比較合理的程式，隨著資料不斷增加，需要越來越多的分散式計算能力，cluster開始扮演越來越重要的角色，可以認為cluster替代了計算機，另一方面對資料的管理也提出了更高的要求，在這個時期，對元資料給與了更大的重視，計算結構成為cluster+資料+元資料+演算法。再後來，cluster也逐漸不能滿足快速增長的資料要求，cloud開始大熱，對元資料的管理也開始向語義、知識靠攏，演算法上深度學習等開始流行，計算結構變成cloud+資料+元資料+演算法。

而知識圖譜的發展與重視，主要是機器學習存在的一些問題：1）深陷概率關聯的泥潭而忽視了因果；2）缺背景、缺常識、缺推理，資料已經無法滿足我們對外提供服務的需求，因此在算力和演算法的支援下存在新動能的切換，即從資料驅動到知識驅動。有了知識，知識會對經濟產生什麼作用？價值增長點在哪裡？不僅是是網際網路改變人類的生活方式，更大的價值可能是對人類生產效率的提升。

當然，知識圖譜在落地過程中也還存在一些問題，從技術的角度，知識圖譜的構建過程可以分為：知識表示，知識抽取，知識融合，知識推理。在知識表示中，各種異構的知識如何表示：如圖結構、生成式規則、流程等。知識抽取中，如何把社交、事件、實體等關係聯合抽取。知識融合中，如何與現有的知識、規則融合。知識推理中，混合推理，多時態推理如何進行。

王昊奮——從人工智慧到開放知識圖譜：數字經濟大潮下的新機遇

主要彙報OpenKG的一些工作。

知識圖譜是工業界提出的一個概念，本質是大資料驅動下的知識工程的重述。伴隨著AI的起起伏伏，知識圖譜的發展也經歷了以下階段：

從50年代到70年代，主要是符號邏輯、神經網路和產生式規則；從70年代到90年代，是專家系統，以及以知識庫+推理=智慧而誕生的很多偉大系統；90年代初，全球資訊網開始慢慢的孕育，產生了很多人工構建的知識庫，本體也有哲學概念發展到計算機概念；2000年以後，伴隨著網際網路的快速發展，語義網開始慢慢成長，誕生了群智的代表維基百科；2006年之後，因為各種技術的成熟，大資料的出現，算力的提升，演算法的提升，出現了各種人機協同的高質量知識庫，以及以此為基礎的應用。可以看見知識圖譜的出現不是一蹴而就，而是多學科的融合，包括知識表示，自然語言處理，web，AI等各個方面。

在數字經濟中知識圖譜的主要應用是：KG輔助搜尋KG4SEO，KG輔助問答KG4BOTS，KG輔助決策。因為深度學習的火熱，深度學習常被用來和知識圖譜比較，兩者分別代表”術“和”數“。深度學習其實是一種歸納學習，對應於聰明的人，更多解決的是感知，識別，判斷的問題；對於很多其他任務，通常是資料/知識驅動的，需要考慮機器是否足夠知識淵博，更多關注的是認知智慧時代的思考、語言和推理，這更多需要知識圖譜帶來的紅利，因此，兩者是相輔相成的。

接下來更多介紹的是OpenKG的一些東西，OpenKG=中文+開放+知識圖譜，希望推動構建以中文為核心的最具影響力的開放域知識圖譜。OpenKG 1.0的主要工作是收集各種各樣的資料，收集各種各樣的工具，形成很多的成員。但要建一個知識圖譜，要怎麼做還是不清楚，因此在OpenKG 2.0，形成了以下幾件事情：1）cnSchema，是schema.org的一個同步版，同時包括一些微創新，提供可供參考的擴充套件的資料描述和介面定義標準；2）OpenBase，知識圖譜眾包平臺，基於cnSchema和積累的工具、資料、粗知識等，通過眾包機制形成細知識；3）OpenBot，圖譜轉化為對話機器人的平臺工具。

加入Openbase成為貢獻者或者瞭解更多關於Openbase的資訊，可以參考其官網Openbase。

CNCC 2018技術論壇——知識圖譜賦能數字經濟

1、周傲英：資料是催生數字經濟的新動能——兼談知識圖譜的作用

2、周國棟——語言理解與知識圖譜

3、唐傑——Representation Learning for Big Network

從大規模網路資料中學出節點、邊、子圖的表示

用學出的表示做使用者行為預測

將使用者反饋結合到網路中

虎嵩林——知識驅動的網際網路變革

王昊奮——從人工智慧到開放知識圖譜：數字經濟大潮下的新機遇

CNCC 2018技術論壇——知識圖譜賦能數字經濟

促進區塊鏈技術公司賦能實體經濟先達主鏈為夢起航

U-Lab率先舉辦鏈改論壇，領銜區塊鏈賦能實體經濟發展

於佳寧：區塊鏈是世界性技術，賦能實體經濟大有可為

為什麼說區塊鏈金融賦能實體經濟值得期待？

區塊鏈賦能實體經濟，數秦科技提供了哪些新樣本？

程序員不能錯過的技術知識圖譜，進階路上必備神器。

程序員進階路上不能錯過的史上最全技術知識圖譜秘籍

IT架構師絕對不能錯過的34張史上最全技術知識圖譜

程式設計師不能錯過的28份技術知識圖譜，你的進階路上必備

AI生態賦能2018論壇來襲！轉型AI看這裡！

技術論壇 | 10月22日在微軟：“行業知識圖譜+ ”論壇通知

CCAI 2017 | 德國DFKI科技總監Hans Uszkoreit：如何用機器學習和知識圖譜來實現商業智能化？

雲技術平臺賦能媒體融合發展創新

從司法領域看阿裏雲產業AI策略：生態聯盟，技術賦能

你的知識死角不能否定你的技術能力

窄帶高清賦能體育賽事，世界杯高清直播背後的技術變革

數據安全為新零售賦能 | 安華金和應邀出席2018中國企業互聯網夏季峰會

用信息化技術賦能文旅活動，新社匯·社圈企業家內蒙古草原自駕行活動圓滿結束

千人千面、個性化推薦，解讀數據賦能商家背後的AI技術

CNCC 2018技術論壇——知識圖譜賦能數字經濟

1、周傲英：資料是催生數字經濟的新動能——兼談知識圖譜的作用

2、周國棟——語言理解與知識圖譜

3、唐傑——Representation Learning for Big Network

從大規模網路資料中學出節點、邊、子圖的表示

用學出的表示做使用者行為預測

將使用者反饋結合到網路中

虎嵩林——知識驅動的網際網路變革

王昊奮——從人工智慧到開放知識圖譜：數字經濟大潮下的新機遇

相關推薦