如何查詢NLP相關論文
如何檢索自然語言處理領域相關論文
前言
針對自身的情況,發現個人查詢論文的能力,看論文的能力有些薄弱。特此進行如果檢索合適的論文寫一個部落格。
本文主要是摘自劉知遠 老師的新浪部落格和南京理工大學文字挖掘研究組部落格
綜述
要快速地熟悉一個領域,更加深刻地瞭解這該領域的發展,就必須查閱這個領域的相關論文。本文主要講述自然語言處理領域(NLP)相關論文的檢索。
與其他領域一樣,自然語言處理領域每年都有大量的論文發表在各種期刊、會議上,然而人的時間和精力是有限的,如何能在有限的時間內,檢索出該領域的高影響力、高質量的論文,是我們所關注的。對於這個問題,首先我們應當瞭解一下自然語言知名的學術組織、學術會議及學術論文,其次是在瞭解上述資訊基礎上的論文檢索手段
下面,本文將從國內外自然語言處理領域知名的學術組織、學術會議及學術論文及相關論文檢索和篩選的經驗兩方面內容,介紹一些關於自然語言處理領域的知識和論文檢索的經驗。
本文第一部分引用清華大學劉知遠老師新浪部落格上的一篇博文,針對國內外自然語言處理領域知名的學術組織、學術會議及學術論文的介紹。第二部分將分享一些前一段時間,在論文調研過程中關於論文查詢和篩選的一些經驗,希望對大家有所幫助。
正文
1. 初學者如何查閱自然語言處理(NLP)領域學術資料(作者:劉知遠)
昨天實驗室一位剛進組的同學發郵件來問我如何查詢學術論文,這讓我想起自己剛讀研究生時茫然四顧的情形:看著學長們高談闊論領域動態,卻不知如何入門。經過研究生幾年的耳濡目染,現在終於能自信地知道去哪兒瞭解最新科研動態了。我想這可能是初學者們共通的困惑,與其只告訴一個人知道,不如將這些Folk Knowledge寫下來,來減少更多人的麻煩吧。當然,這個總結不過是一家之談,只盼有人能從中獲得一點點益處,受個人認知所限,難免掛一漏萬,還望大家海涵指正。
1.1 國際學術組織、學術會議與學術論文
自然語言處理(natural language processing,NLP)在很大程度上與計算語言學(computational linguistics,CL)重合。與其他計算機學科類似,NLP/CL有一個屬於自己的最權威的國際專業學會,叫做The Association for Computational Linguistics(ACL,URL:http://aclweb.org/),這個協會主辦了NLP/CL領域最權威的國際會議,即ACL年會,ACL學會還會在北美和歐洲召開分年會,分別稱為NAACL和EACL。除此之外,ACL學會下設多個特殊興趣小組(special interest groups,SIGs),聚集了NLP/CL不同子領域的學者,性質類似一個大學校園的興趣社團。其中比較有名的諸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。這些SIGs也會召開一些國際學術會議,其中比較有名的就是SIGDAT組織的 EMNLP
作為NLP/CL領域的學者最大的幸福在於,ACL學會網站建立了稱作ACL Anthology,支援該領域絕大部分國際學術會議論文的免費下載,甚至包含了其他組織主辦的學術會議,例如COLING、IJCNLP等,並支援基於Google的全文檢索功能,可謂一站在手,NLP論文我有。由於這個論文集合非常龐大,並且可以開放獲取,很多學者也基於它開展研究,提供了更豐富的檢索支援,具體入口可以參考ACL Anthology頁面上方搜尋框右側的不同檢索按鈕。
與大部分計算機學科類似,由於技術發展迅速,NLP/CL領域更重視發表學術會議論文,原因是發表週期短,並可以通過會議進行交流。當然NLP/CL也有自己的旗艦學術期刊,發表過很多經典學術論文,那就是Computational Linguistics。該期刊每期只有幾篇文章,平均質量高於會議論文,時間允許的話值得及時追蹤。此外,ACL學會為了提高學術影響力,也剛剛創辦了Transactions of ACL,值得關注。值得一提的是這兩份期刊也都是開放獲取的。此外也有一些與NLP/CL有關的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。
根據Google Scholar Metrics 2013年對NLP/CL學術期刊和會議的評價,ACL、EMNLP、NAACL、COLING、LREC、Computational Linguistics位於前5位,基本反映了本領域學者的關注程度。
NLP/CL作為交叉學科,其相關領域也值得關注。主要包括以下幾個方面:
- (1)資訊檢索和資料探勘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIR、WWW、WSDM等;
- (2)人工智慧領域。相關學術會議主要包括AAAI和IJCAI等,相關學術期刊主要包括Artificial Intelligence和Journal of AI Research;
- (3)機器學習領域,相關學術會議主要包括ICML,NIPS,AISTATS,UAI等,相關學術期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近興起的knowledge graph研究論文,就有相當一部分發表在人工智慧和資訊檢索領域的會議和期刊上。實際上國內計算機學會(CCF)制定了“中國計算機學會推薦國際學術會議和期刊目錄”(http://www.ccf.org.cn/sites/ccf/aboutpm.jsp?contentId=2567814757463),通過這個列表,可以迅速瞭解每個領域的主要期刊與學術會議。
最後,值得一提的是,美國Hal Daumé III維護了一個- (1)資訊檢索和資料探勘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括natural language processing的部落格 (http://nlpers.blogspot.com/),經常評論最新學術動態,值得關注。我經常看他關於ACL、NAACL等學術會議的參會感想和對論文的點評,很有啟發。另外,ACL學會維護了一個Wiki頁面(http://aclweb.org/aclwiki/),包含了大量NLP/CL的相關資訊,如著名研究機構、歷屆會議錄用率,等等,都是居家必備之良品,值得深挖。
1.2 國內學術組織、學術會議與學術論文
與國際上相似,國內也有一個與NLP/CL相關的學會,叫做中國中文資訊學會(URL:http://www.cipsc.org.cn/)。通過學會的理事名單(http://www.cipsc.org.cn/lingdao.php)基本可以瞭解國內從事NLP/CL的主要單位和學者。學會每年組織很多學術會議,例如全國計算語言學學術會議(CCL)、全國青年計算語言學研討會(YCCL)、全國資訊檢索學術會議(CCIR)、全國機器翻譯研討會(CWMT),等等,是國內NLP/CL學者進行學術交流的重要平臺。尤其值得一提的是,全國青年計算語言學研討會是專門面向國內NLP/CL研究生的學術會議,從組織到審稿都由該領域研究生擔任,非常有特色,也是NLP/CL同學們學術交流、快速成長的好去處。值得一提的是,2010年在北京召開的COLING以及2015年即將在北京召開的ACL,學會都是主要承辦者,這也一定程度上反映了學會在國內NLP/CL領域的重要地位。此外,計算機學會中文資訊科技專委會組織的自然語言處理與中文計算會議(NLP&CC)也是最近崛起的重要學術會議。中文資訊學會主編了一份歷史悠久的《中文資訊學報》,是國內該領域的重要學術期刊,發表過很多篇重量級論文。此外,國內著名的《計算機學報》、《軟體學報》等期刊上也經常有NLP/CL論文發表,值得關注。
1.3 如何快速瞭解某個領域研究進展
最後簡單說一下快速瞭解某領域研究進展的經驗。你會發現,搜尋引擎是查閱文獻的重要工具,尤其是谷歌提供的Google Scholar,由於其龐大的索引量,將是我們披荊斬棘的利器。
當需要了解某個領域,如果能找到一篇該領域的最新研究綜述,就省勁多了。最方便的方法還是在Google Scholar中搜索“領域名稱 + survey / review / tutorial / 綜述”來查詢。也有一些出版社專門出版各領域的綜述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它們發表了很多熱門方向的綜述,如文件摘要、情感分析和意見挖掘、學習排序、語言模型等。
如果方向太新還沒有相關綜述,一般還可以查詢該方向發表的最新論文,閱讀它們的“相關工作”章節,順著列出的參考文獻,就基本能夠了解相關研究脈絡了。當然,還有很多其他辦法,例如去videolectures.net上看著名學者在各大學術會議或暑期學校上做的tutorial報告,去直接諮詢這個領域的研究者,等等。
2.補充
另,附上南京理工大學文字挖掘研究組部落格實現的一款論文調研工具。該工具基於Python的爬蟲技術,可根據論文發表年份、關鍵字、發表會議等資訊,自動批量抓取主題相關論文的標題,然後,從Google Scholar獲取引用次數、下載連結、論文作者、論文摘要資訊並按指定的格式儲存在EXCEL文件中。
github連結