1. 程式人生 > >資料集Cora、Citeseer、DBLP

資料集Cora、Citeseer、DBLP

可選用的資料集主要包括Cora、Citeseer、DBLP三類。  DBLP資料集用XML描述,欄位資訊包括:author、title、pages、year、booktitle、url、crossref、publisher、ee、cdrom、isbn、cite_label等。其中作者名屬性資訊的格式是統一的,處理比較方便。目前,DBLP對作者重名問題的處理已經有不錯的效果。例如:輸入一作者名“wei wang”,可以得到16個不同的作者及其工作單位,並能連結得到每個作者的發表論文情況、個人主頁和合作者列表等資訊。(不存在問題了嗎?)此外,引文資訊中除了基本資訊:作者名、文章名、會議名之外,加入新的資訊:author keywords,對應於論文中的keywords。但是,並非所有的論文都包含有author keywords資訊,也並非所有作者都有個人主頁,在個人主頁連結識別上還存在問題。  Cora資料集分為6大類,36個小類。主要的檔案目錄包括:(1)papers:以<id> <filename> <citation string>的形式描述論文資訊,其中citation string是該論文的任意一篇參考引文或者基於作者名和文章名提取出的關鍵字。(2)citations:大約有715000條引文資訊,用<referring_id> <cited_id>形式描述論文之間的引用關係。(3)citations.withauthors:包含論文的引文資訊和作者資訊,描述格式為:<this_paper_id><filename><id_of_first_cited_paper><id_of_second_cited_paper>…<Author#1>(of this paper)<Author#2>…(4)classifications:記錄論文的分類資訊,但分類標籤並不是很準確,其描述格式為:<filename> <classification>。如:http:##www.ri.cmu.edu#afs#cs#user#alex#docs#idvl#dl97.ps    /Information_Retrieval/Retrieval/。  在CiteSeer資料集中,論文分為六類:Agents、AI(人工智慧)、DB(資料庫)、IR(資訊檢索)、ML(機器語言)和HCI,共包含3312篇論文,記錄了論文之間引用或被引用資訊。去除停用詞和在文件中出現頻率小於10次的詞,整理得到3703個唯一詞。CiteSeer資料集包含兩個檔案:.content檔案和.cites檔案,其中.content檔案描述論文資訊的格式為:<paper_id> <word_attributes>+<class_label>;.cites檔案描述了論文之間的引用資訊,格式為:<ID of cited paper> <ID of citing paper>。例如,一行內容為:paper1 paper2,那麼引用關係為paper2引用paper1,即:paper2->paper1。  但是,Citeseer資料集中的分類太籠統。