北郵石川教授:「異質資訊網路」研究現狀及未來發展
本文轉載自:https://www.leiphone.com/news/201801/MpY4WF11OTnFLp7y.html
圖片均來源於轉載地址
異質資訊網路研究現狀及未來發展
一、引言
現實生活中的大多數實際系統是由大量相互作用、型別不同的元件構成,當前的分析方法通常將其建模為同質資訊網路(Homogeneous information network)。採用同質網路的建模方法往往只抽取了實際互動系統的部分資訊,或者沒有區分互動系統中物件及關係的差異性,這些做法都會造成資訊不完整或資訊損失。
最近,越來越多的研究人員開始將這些互連的多型別網路化資料建模為異質資訊網路 [1](Heterogeneous information network),並且通過利用網路中豐富的物件和關係資訊來設計結構分析方法。與廣泛研究的同質資訊網路相比,異質資訊網路包含全面的結構資訊和豐富的語義資訊,這也為資料探勘提供了新的機遇與挑戰。
這裡我們簡單介紹這種建模方式的基本概念、分析方法和未來發展。
[1] 這裡我們將 Homogeneous / Heterogeneous information network 翻譯成為同質/異質資訊網路。雖然有些學者將其翻譯為同構/異構資訊網路,但是這種翻譯容易和通訊網路中的同構/異構網路的概念混淆。另外,同質/異質更能反映網路中節點和邊的型別和性質不一樣這種特性。
二、基本概念
我們先介紹一下異質資訊網路中的基本概念。
2.1 概念
異質資訊網路被定義為一個有向圖,它包含多種型別的物件或者關係,每個物件屬於一個特定的物件型別,每條關係屬於一個特定的關係型別。網路模式(Network schema)是定義在物件型別和關係型別上的一個有向圖,是資訊網路的元描述。
圖 1(a) 是一個由科技文獻資料構成的典型異質資訊網路例項。該網路包含三種類型的物件:論文、會議和作者;每篇論文有到作者和會議的鏈路關係,每條鏈路屬於一種關係型別。
圖 1(b) 是該網路的網路模式,描述了文獻網路包含的物件型別(會議、論文、作者)和相應的關係(撰寫/被撰寫、出版/被出版、引用/被引用)。
異質資訊網路分析中一個重要的概念是元路徑(meta-path)。元路徑是定義在網路模式上的連結兩類物件的一條路徑,形式化定義為
,表示物件型別之間的一種複合關係
R
=
R
1
∗
R
2
∗
.
.
.
.
.
.
∗
R
l
R=R1*R2*......*Rl
R=R1∗R2∗...
元路徑不僅刻畫了物件之間的語義關係,而且能夠抽取物件之間的特徵資訊。圖 2 顯示了文獻網路中兩個元路徑的例子,分別簡記為「APA」和「APVPA」(A、P、V 分別表示作者、論文和會議型別)。可以看出,基於不同的元路徑,物件之間的語義關係是不同的。元路徑「作者-論文-作者」(APA)表示兩個作者合作撰寫了同一篇論文;元路徑「作者-論文-會議-論文-作者」(APVPA)表示兩個作者在同一會議上發表了論文。連結兩類物件的不同元路徑表示了不同的語義關係和不同的連結網路,這也造成了不同的分析結果和不同的特徵表示。
實際上,大多數真實系統都存在多種型別物件的相互互動。例如,社交媒體網站(如微信和微博)包含多種型別的物件(如使用者、帖子和標籤)和這些物件之間的複雜互動(如使用者之間的朋友、跟帖、通訊等關係,使用者和帖子之間的釋出關係)。醫療系統包含醫生、病人、疾病和裝置等物件型別以及他們之間的互動。一般來說,這些互動系統都可以被建模為異質資訊網路。
傳統的同質網路建模方法只是抽取了這些真實互動系統的部分資訊,而且這些資訊往往也可以從異質資訊網路中推匯出來。例如,經常分析的作者合作網路可以通過元路徑「APA」從上述科技文獻網路中得到。
2.2 為什麼要進行異質資訊網路分析
作為資料探勘的重要研究方向,在過去的近20年裡,網路分析方法已經被深入研究,並且應用於很多資料探勘任務,在這些工作中往往將網路化資料建模成同質資訊網路。然而,異質資訊網路的一些獨特特徵使得異質資訊網路分析變得十分重要。
-
首先,異質資訊網路分析是資料探勘的新發展。近年來,大量湧現的社會媒體網站包含許多不同型別的物件和物件之間複雜的互動。將這些相互作用的物件建模為同質網路是很困難的,然而使用異質資訊網路為其建模卻是很自然的方式。特別的,大資料的一個顯著特徵是資料的多樣性,作為半結構化的表示方法,異質資訊網路可以有效建模和處理大資料中複雜多樣的資料。
-
其次,異質資訊網路是融合更多資訊的有效工具。與同質網路相比,異質網路可以融合更多型別的物件及其之間複雜的互動關係,也可以融合多個社交網路平臺的資訊。
-
最後,異質資訊網路包含豐富的語義。在異質網路中,不同型別的物件和連結共存,它們具有不同的語義含義,在資料探勘任務中考慮語義資訊將導致更細微的知識發現。同質網路中的大多數方法並不能直接應用於異質網路中,因此在異質資訊網路中發現有趣的模式是十分必要的。
三、研究現狀
3.1 研究現狀概述
異質資訊網路為更好地分析網路化資料提供了一種新的研究模式,同時也給許多資料探勘任務帶來了新的挑戰。很多基於異質資訊網路的資料探勘問題已經被廣泛研究,圖 3 是對過去 6 年這一方向相關研究工作的近 200 篇論文按照研究問題分類的分佈圖。從圖中可以看出,異質資訊網路已經廣泛應用於主要的資料探勘問題,特別是相似性度量、聚類、分類、連結預測、推薦等任務。
異質資訊網路建模的優勢在於整合更多資訊和包含豐富語義,這同時也造成了異質資訊網路分析的難點:如何有效利用異質資訊和探索豐富語義。
作為有效利用異質資訊和探索語義的工具,元路徑被廣泛應用於異質網路分析。例如,PathSim 利用對稱元路徑抽取兩個節點之間的連通路徑來度量二者的相似性,這樣不僅利用到了相關的異質資訊,而且體現了節點和邊的豐富語義。很多機器學習技術都可以應用到異質網路分析中,例如隨機遊走模型、主題模型、矩陣模型和概率模型。各類資訊也都能夠整合到異質網路分析中,例如屬性資訊、文字資訊和使用者指導資訊。
圖 4 從網路結構和語義探索兩個角度,總結了該領域的一些典型工作。沿著 X 軸,網路結構變得更加複雜;沿著 Y 軸,語義資訊變得更加豐富。
例如,PathSim 可以處理星型模式網路,並使用元路徑挖掘語義關係。SemRec 在基本元路徑上增加了連結的權值約束,以在帶權異質網路中探索更微妙的語義資訊。從圖中我們可以發現,大多數研究都集中在簡單網路結構(例如二分或星型模式網路)和基本語義探索(例如元路徑)上,未來在利用更強大的語義探索工具分析更復雜的異質網路方面還需要做更多探索。
四、未來發展
雖然異質資訊網路已經應用於很多資料探勘任務,但它仍然是一個年輕而且快速發展的研究領域。在這裡我們簡單討論一下未來的研究方向。
4.1 更加複雜的網路構建
當前研究大多假定異質資訊網路是明確定義的,網路中的物件和關係是清晰的。然而,在實際應用中,從真實資料構造異質資訊網路會遇到很多挑戰。對於關係資料庫之類的結構化資料,構造異質資訊網路比較容易,然而即使是在這種網路中,物件和關係也可能具有噪聲,比如會出現物件重名或關係不完整等問題;對於像文字、影象等非結構化資料,如何準確抽取出相應的物件和關係,進而建立更加完善和準確的異質資訊網路也將面臨更多挑戰,在實踐中會用到諸如資訊抽取、自然語言處理、影象處理等各種技術。
4.2 更加強大的分析方法
在異質資訊網路中,物件可通過不同的方式組織在一起。星型模式是廣泛使用的異質資訊網路型別,例如前面介紹的科技文獻網路。之後,又出現了帶環的星型模式和多中心網路等網路模式。
實際應用中,網路化資料通常更加複雜和沒有規律性。某些實際網路中的鏈路會包含屬性值,而這些屬性值可能包含重要的資訊,這樣就構成了帶權異質資訊網路,例如前面介紹的電影網路。另外一些應用中,使用者可能存在於多個異質網路,這時需要對齊不同網路中的使用者,有效融合不同網路的資訊。還有很多網路資料,例如知識圖譜,包含有很多種型別的物件和關係,很難用簡單的網路模式來描述。這種豐富模式(schema-rich)的異質網路中也出現了很多新的研究問題,例如多種型別物件關係的管理以及元路徑的自動產生等。這些複雜的網路化資料,給異質資訊網路建模與分析提出了更多的機遇和挑戰。
異質資訊網路中的物件和關係包含著豐富的語義資訊,而元路徑可以捕捉這種語義資訊。異質資訊網路上的很多資料探勘任務是基於元路徑進行研究的,但是元路徑在某些應用場景中並不能捕捉到精細的語義資訊。例如,“作者-論文-作者”路徑表示了作者之間的合作關係,但卻不能描述特定條件下(例如KDD領域)的合作關係。為了克服這個不足,很多研究者提出了受限元路徑、帶權元路徑、元結構等概念擴充套件元路徑的語義抽取能力。針對更加複雜的網路結構(如知識圖譜),如何設計更加靈活精細的語義探索工具仍然需要進一步的研究。
近些年出現的深度學習在影象、自然語言等高維複雜資料處理上展現了優異的特徵抽取能力,因此可以利用深度學習方法處理異質網路資料。當前深度學習和表示學習已經開始用於網路的結構特徵表示。異質網路中包含不同型別的節點和邊,而且元路徑體現了豐富的語義資訊,這些特徵使得異質網路的特徵表示學習表現出很大的不同。異質網路的表示學習對異質網路分析提出了新思路,也為結構資訊與其他模態資訊融合提供了新途徑。
4.3 更大資料的處理
為了展現異質網路建模的優勢,我們需要在更廣泛的領域中對大型網路化資料設計實用的資料探勘演算法。多樣性是大資料的重要特徵,異質網路是處理大資料多樣性的有效方法。然而,構建一個真正的基於異質網路的大資料分析系統也是具有挑戰性的工作。實際的異質網路是巨大的,甚至是動態的,所以它通常不能儲存在記憶體中直接處理。由於使用者往往只對一小部分節點、連結或子網路感興趣,我們可以根據使用者需求,從現有網路中動態地提取子網路進行分析。另外,設計基於異質網路的快速演算法和並行演算法也是亟需研究的內容。
其他一些研究方向也值得關注。相比於學習大資料的深層特徵的深度學習方法,最近興起的廣度學習(broad learning)整合不同型別的多個數據源進行融合學習,並在一些應用中取得了顯著效果。由於異質資訊網路是大資料時代整合不同型別資料的天然工具,因此結合異質資訊網路研究廣度學習方法不僅會推動新的機器學習方法的發展,而且為解決大資料的多樣性提供新的思路。針對具體問題的異質網路分析系統也是重要發展方向。2017年KDD的最佳應用論文利用異質網路和元路徑構建和描述Android手機的APP應用和API呼叫的豐富互動,並將其用於惡意軟體檢測。這也為採用異質資訊網路解決實際問題帶來有益啟示。
五、結論
近年來,由於異質資訊網路包含全面的結構和豐富的語義資訊,採用異質網路建模和分析的研究大量湧現。本文對這個發展快速的領域進行了一個簡要的介紹,希望研究者更好地瞭解異質資訊網路分析的基本思路和特點,能夠採用這種模式對實際的網路化資料進行建模和分析。