文獻閱讀202010_2
目錄
1.題目
An alternative topic model based on Common Interest Authors for topic evolution analysis
2.背景
傳統的主題建模方法將主題定義為目標文件集合中不同的共同出現的詞集,未能準確地反映這些文件的作者如何形成和共享真正的主題。主題不是關鍵字,而是在作者頭腦中構建的概念,為了解決這個問題,提出了基於作者的主題建模替代方案,其中主題被定義為研究人員的一組共同研究興趣,使用自然語言處理方法從文件集合中提取潛在的語義主題。
3.思路
1)從資料集中篩選特定於關鍵字的活躍的作者,通過它們與一系列使用者輸入度量閾值的相關性和連通性來進行
2)挖掘CIA組在與候選作者建立的作者的合著者、作者引用、共同引用、書目耦合和共同詞之間的五個文獻網路上執行多圖聚類,以確定一系列CIA組,它們是由多個出版活動連線的研究人員組成的獨特的子網路。
3)CIA主題表示將這些作者組與他們共同的研究興趣與CIA組成員以詞頻向量的形式編寫的時間限制出版物的元資料聯絡起來。 由CIA組進行的主題建模使得相關分析能夠用於動態變化的研究興趣。
4.研究方法
資料集
通過MAG來準備實驗資料集。MAG是微軟建立的一個異構出版物圖表,包含出版物記錄、它們之間的引文以及其他元資料,比如關鍵詞、地點、機構以及研究領域。 使用Neo4j提取的準備的資料集。 Neo4j是一個基於實體間關係的開源圖形資料庫管理系統,根據圖形DBMS的DB-Engines排名,資料以帶有標籤的節點形式儲存,邊緣帶有型別,每個節點都具有儲存相關資訊的屬性。
提取CIA候選人
在確定這些的候選作者時,考慮了與領域相關的作者的相關性和連通性。 相關性:領域相關的論文py是在[y-b,y]期間內發表的所有出版物且在[y-b,y]期間每一年都有被引用,給定的研究領域q是關鍵字或FOS之一。欄位相關性是作者在Y年的相關性,用三種度量的加權和來衡量;撰寫論文的頻率(主動性)、引用的文章數(重要性)和被引用的文章數(凝聚力) 連通性:H-index是一種廣泛使用的作者度量,它既衡量了作者的生產力,也衡量了作者的學術影響。 類似的措施被用來測量活躍作者的連通性,測量作者在至少n個頻率的書目網路上的最大鄰居數n。 作者在y年的連通性是通過文獻網路的相鄰節點大小的加權和和類似H-索引的度量來衡量的。
在實驗中,對相關性和連線性度量使用了同等的權重,三分之一用於活躍性、重要性和凝聚力,十分之一用於五個網路及其H指數的變化。 每次迭代時,50%的作者被過濾掉,導致25%的作者剩餘。
文獻網路:書目網路代表了作者之間不同型別的關係。 這些網路雖然不直接代表作者之間的主題相似性,但包含關於共享研究主題的資訊,因為在這些網路中連線的作者通過他們所代表的研究活動連線起來。 五種不同的書目網路被用來代表作者關係的不同方面。 下圖顯示了該方法中使用的書目網路的型別和表示的屬性。
挖掘CIA組
通過合併公共節點集合的所有書目網路,生成多圖Gy,多圖聚類採用完全重疊策略,這是一種100%支援的頻繁模式挖掘方法。 在Gy上使用的總重疊策略允許對非重疊連結進行過濾,從而產生具有一種邊緣型別的非向向圖Gy1,如圖所示。 結果圖Gy1是一個斷開的圖,有許多連線的子圖,每個子圖代表一個獨特的作者集合,每個結果子圖被指定為CIA組。
CIA主題表示
CIA的一個主題是同一個CIA組中共同研究興趣的標籤, 一個CIA組的關鍵詞和FOS使用頻率被用來為這項研究建立一個CIA主題。 這是為了確保CIA主題的格式遵循傳統方法中主題的格式,同時保持所提出的方法不受自然語言處理的使用。 關鍵詞和FOS都是特定的術語,用來表示給定的研究領域和主題,消除了主題詞提取的必要性。 由於輸入資料的結構化性質,從句法、語篇或語用歧義等句子中產生的許多語言歧義被忽略,而語義歧義則不被視為該方法中缺乏基於文字的建模。 在建模過程中不使用單詞,因此不需要詞義消歧來區分不同上下文的單詞。CIA的主題是由CIA組建模的,這些詞只用於以文字格式表示它們的主題。
5結果評估
提取CIA候選人
通過比較多圖Gy各層作者對之間關鍵詞相似性,分析了每個書目網路中的區域性自相關程度;自相關是許多圖形資料的一個特徵,其中連結例項在其屬性中更有可能具有相似的值。在21次迭代中,對不同層中隨機選擇的作者對和隨機選擇的作者對之間的關鍵字向量相似性進行了分析。 CIA組候選人最常使用的200個關鍵字被用於計算效率。 所有書目層的作者表現出明顯高的主題自相關性比隨機對性。 這是驗證作者關係與主題共享程度之間相關性的前提
挖掘CIA組
通過分析所有CIA組作者之間的主題相似性,評價了整個作者基礎的共同興趣程度。 還計算了個人書目網路的作者相似性,以供比較。 每年隨機選擇1000個作者對進行20次迭代,在CIA組和書目集中生成20,000個隨機作者對。隨機選擇作為基線,隨機選擇與目標研究領域相關的作者對。 在給定的時隙內,分配給作者出版物的FOS和關鍵字的排序頻率被提取為主題大小為N=的作者主題
CIA主題評估
使用餘弦相似性度量進行比較。 結果表明,與所有四種書目叢集中的作者對以及基線隨機選擇相比,CIA組中的作者對具有更高的主題相似性,CIA組成員的研究興趣更集中。 在CIA組中,作者之間更高的主題相似性導致了CIA組之間更高的主題相似性,。所提出的方法被證明能夠克服傳統主題建模中單一評價措施的侷限性,納入目標欄位共享的固有共同興趣,而不是強迫重點文件集合生成文字上不同的主題集。 值得注意的是,表現不佳的四個單獨的網路被組合在一起,產生的主題比合著者網路質量更高,而在生成的主題的質量方面,共同作者網路明顯優於其他網路。 擁有四個網路的CIA組在主題一致性方面表現出最小的差異。雖然單個網路的結果可能有所不同,但多個作者關係的組合可以導致更連貫的主題生成。
本文的目的是提出一種基於作者的主題建模方法,該方法意識到學術領域的主題相關性。 基於CIA的主題演化是為了展示所提出的方法的合併和分裂演化分析能力;多個CIA組之間的總體流程揭示了研究人員及其主題是如何隨著時間的推移而合併和分裂的。
6總結
該方法用微軟學術圖中與HCI相關的研究文章進行了測試,該研究文章以虛擬現實為主題,從1988年到2018年,在21個10年的跨度時間中感興趣。 實驗表明,基於CIA的主題建模是一種有效的主題建模替代方案,可以生成一組連貫和描述性的主題,同時保持對作者的關注。 CIA的主題包含了目標研究領域的成員通過幾個書目相互作用的固有共同利益。CIA的話題建模是在作者-圍繞共同利益-主題有許多關係的前提下完成的,它不僅可以推廣到其他研究領域,也可以推廣到共享類似作者關係的其他文件型別。 例如,同樣的方法可以用書籍、專利和新聞文章來確定不同焦點和時間敏感性的行業、學術界和公眾的主題演變。 在使用者共享共同主題的一些有限情況下,例如在災害情況下,也可以在社會網路服務上應用。 擬議的方法不是確定對該區域或事件的總體興趣並適應變化,而是提供更有針對性的趨勢跟蹤,使援助人員能夠更好地適應不同難民群體的需要。 所提出的方法也是增強主題演化分析的基礎。 基於作者組的主題建模可以區分群體成員的變化和傳統的主題建模方法所不能區分的興趣變化;所提出的方法允許區分這種不同的主題演化觀點。
所提出的方法還允許對多個主題之間的主題流進行分裂量化,允許比單個主題在不斷變化的詞集中倖存下來的內容轉換更復雜的主題演化;CIA組充當CIA主題之間的過渡媒介,使相關分析能夠同時動態變化研究興趣的合併和分裂。 基於作者的主題相似性將不受主題大小的影響,因為CIA主題集中在小組成員共享的概念上,這些概念不受共享單詞的程度和大小的影響。