Author name disambiguation using a graph model with node splitting and merging based on bibliographic information
阿新 • • 發佈:2018-11-08
分隔 需要 sin 相似性度量 進行 ati 判斷 特征向量 edi
1. 基於圖的作者姓名消歧方法
2. 使用合作關系構建圖模型
3. 基於節點分割和合並解決模糊類別
已有研究:
1. 只處理同名問題
2. 依賴於郵件,網頁等輔助信息
1. 利用文獻信息分析作者關系構建圖模型
2. 拆分存在多個合作網絡中的頂點解決同名問題
3. 合並同作者不同名字的節點解決異名問題
算法過程:
1. 如果是別的環的子環,則移除該環
2. 檢測並合並在正在檢測的環中共享同一頂點的環
Splitting vertices
沿著最長的非重疊環分割包含
Author name disambiguation using a graph model with node splitting and merging based on bibliographic information
基於文獻信息進行節點拆分和合並的圖模型消歧方法(GFAD) 論文: https://link.springer.com/article/10.1007/s11192-014-1289-4 這是一篇比較早的文章,將人名消歧過程作為一個系統,主要想學習它對消歧過程中的各個階段的劃分 GFAD 是一個面向圖的框架,對於元信息缺失,錯誤信息的存在具有較好的魯棒性,且不依賴web 環境,也不需要群體數量信息,不需要估計特定的參數或閾值。其中,頂點表示作者,邊表示合作關系。 同名問題:分割多個不重疊的環中的共同頂點 異名問題:合並具有不同名的頂點 同時:能夠處理異常問題1. 概述
2. 創新點
涵蓋了同名和異名問題 目的:構建對特定域(或數字圖書館)不敏感的通用框架,避免數據缺失和環境錯誤的影響 只依賴 title 和 co-author 1. 以圖表為導向的人名消歧方法,從文獻信息分析作者間的關系構建圖模型 2. 通過鏈接合作者推斷作者的社交環(過去和現在的學術關系) 3. 利用頂點分割或頂點合並 與以往研究相比: 1. 只需要合著者信息和 title(必要屬性) 2. 不要求其他額外信息或估計值 3. 為同名和異名問題提供一個全面的消除歧義的解決方案3. 整體框架
3.1. Graph Model Constructor
圖模型建設 合著者是解決作者歧義的最有影響力的因素,將合著者信息構建成一個圖,合著者為雙向關系3.2. Namesake Resolver
同名的解析器檢測並解決同名問題 假設同一個人同一時期很少在同一個機構工作,社交群體也不同 GFAD將從同一個頂點發出的每個非重疊循環視為不同社交環,循環檢測器查找途中具有多個社交環的頂點,名稱分割器拆分與多個社交環相關聯的頂點3.2.1. Cycle Detector
3.2.2. Namesake Splitter
GFAD 是從開始到結束的頂點間沒有重復頂點和邊的簡單環,需要為每個社交圈確定合適的邊界。通常,社交圈越寬,將不同的人分到同一個人的可能性越大。 如果BDC 包含相關領域的引用記錄,或根據領域構建圖,較大的社交圈就不容易出現以上錯誤 GFAD 將最大的環作為該作者的社交圈,假定,同一個頂點出現在多個最大的社交圈時可能包含同名不同人的作者,因此,我們需要檢測每個頂點的最大非重疊環,然後根據這些周期進行頂點分割3.3. Heteronymous Name Resolver
異名解析器 1. 查找具有相似作者名稱,並且相同作者檢測器識別表示為同一個人的頂點 2. 異名合並器合並該頂點 同一個作者使用不同名字 GFAD 判斷具有相似名字的頂點組,如果該組所有成員至少共享一個公共頂點,則將其視為同一個人3.3.1. similar name searcher
1. GFAD 使用最長公共子序列( LCS ) 方法檢測 2. 使用空格和標點符號作為分隔符標記作者名字,並使用LCS 測量相似度 3. 如果兩者相似度 > 0.8 則視為相似3.3.2. same author detector
兩個相似名稱的頂點直接或間接的連接到圖中的公共頂點,則認為兩者為同一個人3.3.3. heteronymous name merger
一旦確定具有相似名稱的作者是同一個人,則合並3.4. Outlier Remover
孤立點: 缺少消歧所需要的元信息 如:在使用合著關系的系統中,只有一個作者的文章就是孤立點 對於使用作者所屬組織的系統中,缺少作者所屬信息的文章就是孤立點 GFAD 將異常值根據代表性的關鍵字的相似性度量,將相應頂點與圖模型中最相似的頂點合並 相似度量: GFAD 將文章中的詞匯構成一個特征向量,將其作為關鍵詞,使用余弦相似度,測量異常值和其相似頂點間的相似度 過程: 1. 從 GM 中尋找沒有合著信息的頂點 2. 將其中名字相似的頂點標為孤立點,並且選擇出有最高相似度的頂點 3. 將孤立點從 GM 中移除,與有最高相似度的節點合並4. Experiment
分別對比有或沒有異常點移除的步驟的效果 孤立點去除將離群點合並成最相似的群,當將單個記錄群誤解為離群點時,GFAD 性能降低 如何合理的去除離群點?- 對比使用了哪些屬性,信息缺失是否嚴重
- 如何定義相似性閾值
- 使用所有特征屬性(合著者,title,地點)
- 在 arnet 上比 GFAD 性能好
- 需要預先定義標題和地址的相似度閾值
- 選擇一個唯一的不變的閾值不太現實
- 僅使用共同作者
5. GFAD 局限性
不能處理: 1. 兩個同名作者有相同名字但不同人的合作者 2. 雖然是同一個人但沒有共同合作者 3. 當由單一作者所著時,沒有合著者信息 4. 作者個人資料變更(動態變化)
Author name disambiguation using a graph model with node splitting and merging based on bibliographic information