1. 程式人生 > >Author name disambiguation using a graph model with node splitting and merging based on bibliographic information

Author name disambiguation using a graph model with node splitting and merging based on bibliographic information

分隔 需要 sin 相似性度量 進行 ati 判斷 特征向量 edi

Author name disambiguation using a graph model with node splitting and merging based on bibliographic information

基於文獻信息進行節點拆分和合並的圖模型消歧方法(GFAD) 論文: https://link.springer.com/article/10.1007/s11192-014-1289-4 這是一篇比較早的文章,將人名消歧過程作為一個系統,主要想學習它對消歧過程中的各個階段的劃分 GFAD 是一個面向圖的框架,對於元信息缺失,錯誤信息的存在具有較好的魯棒性,且不依賴web 環境,也不需要群體數量信息,不需要估計特定的參數或閾值。其中,頂點表示作者,邊表示合作關系。 同名問題:分割多個不重疊的環中的共同頂點 異名問題:合並具有不同名的頂點 同時:能夠處理異常問題

1. 概述

1. 基於圖的作者姓名消歧方法 2. 使用合作關系構建圖模型 3. 基於節點分割和合並解決模糊類別 已有研究: 1. 只處理同名問題 2. 依賴於郵件,網頁等輔助信息

2. 創新點

涵蓋了同名和異名問題 目的:構建對特定域(或數字圖書館)不敏感的通用框架,避免數據缺失和環境錯誤的影響 只依賴 title 和 co-author 1. 以圖表為導向的人名消歧方法,從文獻信息分析作者間的關系構建圖模型 2. 通過鏈接合作者推斷作者的社交環(過去和現在的學術關系) 3. 利用頂點分割或頂點合並 與以往研究相比: 1. 只需要合著者信息和 title(必要屬性) 2. 不要求其他額外信息或估計值 3. 為同名和異名問題提供一個全面的消除歧義的解決方案

3. 整體框架

1. 利用文獻信息分析作者關系構建圖模型 2. 拆分存在多個合作網絡中的頂點解決同名問題 3. 合並同作者不同名字的節點解決異名問題 技術分享圖片

3.1. Graph Model Constructor

圖模型建設 合著者是解決作者歧義的最有影響力的因素,將合著者信息構建成一個圖,合著者為雙向關系 技術分享圖片 技術分享圖片

3.2. Namesake Resolver

同名的解析器檢測並解決同名問題 假設同一個人同一時期很少在同一個機構工作,社交群體也不同 GFAD將從同一個頂點發出的每個非重疊循環視為不同社交環,循環檢測器查找途中具有多個社交環的頂點,名稱分割器拆分與多個社交環相關聯的頂點

3.2.1. Cycle Detector

算法過程: 1. 如果是別的環的子環,則移除該環 2. 檢測並合並在正在檢測的環中共享同一頂點的環 Splitting vertices 沿著最長的非重疊環分割包含 技術分享圖片

3.2.2. Namesake Splitter

GFAD 是從開始到結束的頂點間沒有重復頂點和邊的簡單環,需要為每個社交圈確定合適的邊界。通常,社交圈越寬,將不同的人分到同一個人的可能性越大。 如果BDC 包含相關領域的引用記錄,或根據領域構建圖,較大的社交圈就不容易出現以上錯誤 GFAD 將最大的環作為該作者的社交圈,假定,同一個頂點出現在多個最大的社交圈時可能包含同名不同人的作者,因此,我們需要檢測每個頂點的最大非重疊環,然後根據這些周期進行頂點分割

3.3. Heteronymous Name Resolver

異名解析器 1. 查找具有相似作者名稱,並且相同作者檢測器識別表示為同一個人的頂點 2. 異名合並器合並該頂點 同一個作者使用不同名字 GFAD 判斷具有相似名字的頂點組,如果該組所有成員至少共享一個公共頂點,則將其視為同一個人

3.3.1. similar name searcher

1. GFAD 使用最長公共子序列( LCS ) 方法檢測 2. 使用空格和標點符號作為分隔符標記作者名字,並使用LCS 測量相似度 3. 如果兩者相似度 > 0.8 則視為相似 技術分享圖片

3.3.2. same author detector

兩個相似名稱的頂點直接或間接的連接到圖中的公共頂點,則認為兩者為同一個人

3.3.3. heteronymous name merger

一旦確定具有相似名稱的作者是同一個人,則合並

3.4. Outlier Remover

孤立點: 缺少消歧所需要的元信息 如:在使用合著關系的系統中,只有一個作者的文章就是孤立點 對於使用作者所屬組織的系統中,缺少作者所屬信息的文章就是孤立點 GFAD 將異常值根據代表性的關鍵字的相似性度量,將相應頂點與圖模型中最相似的頂點合並 相似度量: GFAD 將文章中的詞匯構成一個特征向量,將其作為關鍵詞,使用余弦相似度,測量異常值和其相似頂點間的相似度 技術分享圖片 過程: 1. 從 GM 中尋找沒有合著信息的頂點 2. 將其中名字相似的頂點標為孤立點,並且選擇出有最高相似度的頂點 3. 將孤立點從 GM 中移除,與有最高相似度的節點合並

4. Experiment

分別對比有或沒有異常點移除的步驟的效果 技術分享圖片 孤立點去除將離群點合並成最相似的群,當將單個記錄群誤解為離群點時,GFAD 性能降低 如何合理的去除離群點?
  • 對比使用了哪些屬性,信息缺失是否嚴重
  • 如何定義相似性閾值
技術分享圖片 技術分享圖片 GFAD-AD: 僅使用共同作者 GFAD-OR:孤立點移除 HHC:使用引用特征的非監督人名消歧 HHC-ALL: 使用所有特征屬性(合著者,title,地點) HHC-CO:僅使用合著者特征
  • 使用所有特征屬性(合著者,title,地點)
  • 在 arnet 上比 GFAD 性能好
  • 需要預先定義標題和地址的相似度閾值
  • 選擇一個唯一的不變的閾值不太現實
GFAD-AD
  • 僅使用共同作者
當僅使用共同作者屬性時,GFAD-AD 在兩集合中都優於 HHC-CO

5. GFAD 局限性

不能處理: 1. 兩個同名作者有相同名字但不同人的合作者 2. 雖然是同一個人但沒有共同合作者 3. 當由單一作者所著時,沒有合著者信息 4. 作者個人資料變更(動態變化)

Author name disambiguation using a graph model with node splitting and merging based on bibliographic information