AMiner 新功能:技術趨勢分析—挖掘技術源頭、近期熱度和全局熱度
技術趨勢分析的方法
技術趨勢分析描述了技術的出現、變遷和消亡的全過程,它可以幫助研究人員理解領域的研究歷史和現狀,快速識別研究的前沿熱點問題。學者運用統計分析、模型構建、AHP 等方法對技術發展路徑進行了一系列研究,這些方法大多是偏重於專家德爾菲法的定性分析,重點在於指標的設定,缺乏定量數據分析。另有一些研究者利用專利主路徑分析研究技術的變遷,然而較少考慮技術主題隨著時間的繼承、分裂和融合。基於數據挖掘的主題變遷通過挖掘深層次的科技文本語義信息,能夠有效的解決這一問題。
主題變遷是指一個領域的研究主題的內容和熱度隨著時間變化的現象,通過識別並關聯不同時間片的技術主題,探索和分析領域主題變遷並通過可視化的方式進行展示,可以從更全面的視角感知技術的演進,對於技術發展路徑識別具有重要意義。
技術流程
基於科技知識圖譜,AMiner 以可視化的方式,對查詢領域 q 的熱度演化趨勢進行總結。
具體而言,某一技術領域 q 的熱度,可以定義為該技術相關術語集合 T q = {t} 在 y 年中的所有文獻內的詞頻數。在這一設定下,問題的關鍵在於如何定位一個技術領域所相關的術語集合。AMiner 將領域術語集合定義為該領域內專家常用的關鍵詞。其具體算法流程如下:
首先,根據輸入的領域查詢詞 q 進行專家搜索,得到候選專家集合 {A}q。
其次,對候選 {A}q 根據與 q 的相關度和該專家的權威度(見公式 (6-1))進行排序。取出排序結果中的前 K 個專家 {A}K q 作為分析對象。
最後,獲取 {A}K q 中每位專家歷年的研究成果,分別抽取關鍵詞,構成術語集合 T q。進而,技術趨勢分析被轉化為針對術語集合 T q 熱度的分析。
相關研究
主題識別
主題識別是指利對領域文獻進行挖掘,以發現其中隱含的研究主題。隨著文獻爆發式增長,主題識別面臨著文本維度高和數據類型復雜的挑戰,傳統的基於專家知識的定性方法不再適應現實情況,基於機器學習的自動化識別逐漸成為主流。目前研究人員針對自動主題識別提出了許多方法和模型,其中主題模型已經成為技術主題識別領域最常用的方法模型。
專家學者是科學研究的主體,一些傑出學者往往引領著學科的發展,可以通過挖掘傑出學者公開發表的科技文獻,發現科學領域的主要研究主題以及主題之間的聯系。一些關鍵詞被某一學者在發表的文章中提及,可能表明這些關鍵詞之間存在一定的關聯關系;如果這些關鍵詞被不同的作者提及,可能說明不同作者認可這些關鍵詞之間的關聯關系,可認為這些關鍵詞能夠構成研究主題。如果某個關鍵詞在作者的文章中多次出現,可以表明作者對關鍵詞所代表的研究主題做了大量研究,並間接說明作者對該領域具有一定的影響力。
主題關聯和可視化
為了分析技術主題變遷,通常需要根據發表時間將文獻劃分到相應的時間片內,通過文本挖掘獲得不同時間片上的主題,將這些主題關聯起來是主題變遷的核心步驟,主題能否關聯決定著主題之間是否存在變遷關系。崔凱等利用 KL 相對熵來度量主題之間差異性,李湘東等利用 JS 距離對期刊主題相似度進行衡量。為了便於直觀了解技術發展路徑,主題關聯需要進行可視化展示,主題關聯和可視化關系密不可分,可視化是為了更好的主題變遷分析,並可以展示技術發展路徑。
現有的路徑可視化工具眾多,其中陳超美基於 java 開發出 Citespace I 和 Citespace Ⅱ,這兩款軟件具有時序分割,同被引分析、時序網絡可視化等功能。Susan Havre 等推出 ThemeRiver 模型,用於反應文檔主題強度信息的變化過程。微軟亞洲研究院提出 TextFlow 方法,在海量文本分析中引入主題合並和分裂的信息。
具體分析
我們將為大家展示 AMiner 中技術趨勢分析系統的 Answer machine 領域的界面截圖。在該系統中,術語集合的熱度被可視化地展示為 Sorted Stream Graph 的形式。
其中,圖中的每個彩色分支表示一個術語,其寬度表示該術語在當年的熱度,各分支在每一年份在圖中按照其熱度進行排序。
系統包括三個視圖:技術源頭、近期熱度和全局熱度,用於展示領域發展的開端和現狀,以及相關領域熱度的變化趨勢。
技術源頭圖
從圖中可以觀察到,綜合來看,Answer machine 由 language generation、knowledge engineering、text planning、text classification 等領域演化而來。在 1971 年至 1981 年十年間,該領域的來源關鍵詞主要是 knowledge engineering,此後關鍵詞逐漸多元化,language generation 和 text planning 開始加入進來。
全局熱度圖
全局熱度展示了該領域相關術語在所有年份上的平均熱度,綜合來看,Answer machine 的全局熱度包含了 question answering、community question answering、machine translation 和 Neural Network 等關鍵詞。
我們還可以看出,machine translation 這一概念自二十世紀九十年代開始興起,但是於 2000 年前後熱度下降。這是由於 information retrieval、question answering 和 Support Vector Machine 等技術與其競爭導致的。並且 question answering 在 2001 年至 2010 年間呈現爆發式地增長。
近期熱度圖
上圖為該領域近期熱度,綜合來看,近期 Answer machine 的熱點集中在 question answering、community question answering、machine translation 和 Neural Network 等關鍵詞,與全局熱度圖是相似的。
技術趨勢分析這一功能可以幫助用戶了解技術的來龍去脈,技術發展趨勢。技術趨勢的發展是科技工作者和科研管理部門必須要考慮的因素。實時的分析技術的發展趨勢,了解領域動態,並且實時的分析趨勢發展中各個國家的分析和對比,及時的了解學科發展狀況,領跑,並跑還是跟跑。
AMiner 新功能:技術趨勢分析—挖掘技術源頭、近期熱度和全局熱度