如何對PDF文獻做視覺化分析？

阿新 • • 發佈：2019-02-03

看了大量文獻後，你的硬碟上想必存下不少PDF檔案。能否充分利用它們，挖掘出你獨特的領域知識地圖呢？本文為你提供一種簡便易行的辦法。

疑問

在網上寫文章最大的好處，是經常可以收到讀者的反饋。不少讀者會提出一些好問題，時常給我以啟發。

前些日子，我寫了《如何快速梳理領域文獻》一文，為大家講解了如何使用VosViewer這一文獻視覺化分析工具，快速梳理領域文獻。

有讀者來信，提出一個疑問：

是否有軟體支援匯入PDF檔案，直接做文獻視覺化分析呢？

我看到這個問題，開始一愣，繼而會心一笑。

愣的原因是，我之前沒有想過會有這樣的需求。因為做文獻視覺化分析的時機，往往是我們剛剛接觸某一個領域，不確定

哪些文獻應該重點閱讀。

這時候，資訊的來源是文獻資料庫（Web of Science, Scopus等）的檢索結果。這些匯出的檢索結果裡面包含了足夠的可供分析的元資料資訊（作者、機構、時間、國別、期刊等）。

然而PDF檔案可就不一樣了。雖然它包含了文獻的全文，但是卻並不更適合提煉元資料資訊，做文獻視覺化分析。尤其是比起元資料匯出格式（例如RIS等），它的體積又大得多。

因此，很難想象一個文獻視覺化工具會選用PDF作為資料來源。

於是，我打算如實回答，在我接觸過的若干種主流文獻視覺化工具裡，沒有哪一款支援這樣的功能。

但是，我旋即想起了哈佛大學營銷學教授萊維特（Theodore Levitt）的那句經典名言：

人們其實不想買一個1/4英寸的鑽頭。他們只想要一個1/4英寸的洞。

如果透過表象，洞察使用者的實際需求，我就立刻能理解這位讀者的痛點在哪裡了。

痛點

對科研工作者來說，已閱讀文獻（大多是PDF格式）的管理，確實是個非常實際的難題。

我們經常會從各種文獻資料庫裡下載閱讀文獻，也因此會在硬盤裡積攢下大量的PDF檔案。這些文獻往往是在相對較長的一段時間內積累起來的，許多都經過了研究者的掃讀(skimming)甚至是精讀，確認和研究主題密切相關，才被一直保留下來。

當然，如果你閱讀後發現文獻不相關，都懶得整理……算我沒說。(幸好做視覺化分析的時候，這部分文獻可以相對容易地被識別出來。)

跟文獻資料庫裡檢索結果全集比起來，這些PDF數量雖多，一般也只是一個子集，並不夠全面和完備。但是我們對其更熟悉，而且這些文獻也更能準確刻畫我們對某個領域的掌握程度。

有的學科發展很快，研究熱點文獻噴湧而出。例如雙中子星合併被人類首次觀測當夜，就有若干篇相關文章發了出來。研究者硬盤裡PDF檔案積累成百上千篇，毫不稀奇。

一旦文獻數量超越了鄧巴數，你再想要“如數家珍”，難度就會大幅上升。大部分人甚至都會忘記，自己曾經下載、儲存並瀏覽過某個PDF檔案。

如果能夠利用文獻視覺化工具，對這些文獻做梳理，會有助於我們理清自己掌握文獻的脈絡，做到心中有數。

更進一步，如果我們把手頭PDF檔案的視覺化結果，與全域性檢索結果的分析圖形進行對比，還可以明顯看出自己對領域掃描是否全面。這將有助於我們找準大方向，避免在文獻叢林中迷失。

這樣看來，讀者的問題就透露出非常有意義的需求。

這種需求，未必需要通過一個全功能的，可以直接從PDF做出分析的文獻視覺化工具一站式完成。

我們可以把它拆解為兩個環節：

從PDF檔案提煉文獻元資料資訊；
將元資料資訊輸入到文獻視覺化工具做分析。

第二個環節，我在《如何快速梳理領域文獻》一文中，已經做了詳細的介紹。需要補充的是，後來我的學生還做了一個全中文的視訊教程，從頭到尾展示了一次文獻採集和分析過程。歡迎訪問這個連結來觀看。

我今天向你展示，如何從PDF檔案提煉文獻元資料資訊。

當然，你完全可以開啟PDF檔案，把其中各種元資料資訊手工提煉出來，然後照葫蘆畫瓢，儲存成Web of Science等文獻資料庫的匯出格式，輸入到VosViewer中。

但是，這顯然效率很低，而且非常容易出錯誤。

工欲善其事，必先利其器。我們會採用一款非常優秀的文獻管理工具，完成這一過程。

工具

這款工具，叫做Zotero。

安仁心智的董事長陽志平先生，曾經撰寫了系列文章，詳細介紹了Zotero的特色、功用和操作方法。建議你讀完本文後，認真通讀該系列文章。

本文只涉及到Zotero的幾個非常簡單實用的功能。因此如果你沒有聽說過Zotero，對它不熟悉，也不要緊。一步步按照下文的步驟操作就可以了。

請到這個網址下載最新版本的Zotero。

我使用的是macOS版本。下載後的格式為dmg。雙擊開啟該檔案後，拖拽Zotero應用圖示到Application目錄的快捷方式裡，即可完成安裝。

從Application目錄下，找到Zotero應用，開啟。

你就可以看到Zotero的主介面了。我很想給你展示一個空白的Zotero介面，可惜我已經在其中儲存了許多文獻內容了。

下文中，我新建了一個空白類別目錄，為你演示。

工具準備好了，下面我們來逐步展示操作流程。

操作

Zotero匯入PDF檔案，是非常方便的，只需要拖拽即可。下面這個GIF動圖為你演示了使用方法。

這時，你點選某個PDF檔案，右側的狀態列會有檔案描述。但是你可以看到，目前描述內容很少。只有檔名、頁碼和修改日期等。

不過我們可以很方便地利用Zotero的“重新抓取PDF元資料”功能，獲得完整的文獻描述資訊。

例如下面這個動圖，演示瞭如何右鍵選單選擇“重新抓取PDF元資料”，將PDF檔案變成元資料完備的文獻記錄。

此時，右側的狀態列裡，文獻資訊可就清晰多了。

可以看到，標題、作者、期刊……甚至是頁碼都採集完整了。

下面我們需要把文獻集合的資訊匯出。為了和後續的文獻視覺化工具配合，請注意一定要選擇RIS格式。

我們開啟匯出後的RIS檔案，預覽內容：

RIS檔案裡包含了許多做文獻分析需要用到的元資料。但是眼尖的你一定會發現，這裡缺少參考文獻列表資訊。因此，你無法做用它做文獻網路分析。但是它依然可以幫助我們挖掘很多有用的資訊。

我們在VosViewer下新建一個專案。

從選項中，可以看到第二項(Create a map based on bibliographic data)或者第三項(Create a map based on text data)功能的資料讀入方式，都支援RIS格式。

我們用第二項試試看。預設選項下，它可以抽取合著者(co-authorship)資訊。

因為樣例中文獻數量較少，所以我們降低了預設閾值，以獲得更為豐富的結果。

分析結果的密度圖如下：

可以看到，你收集的文獻中有哪些作者相對高產，以及他們之間的聯絡。

我們再試試第三項。分析主題資訊。

由於過程與第二項類似，我們就不再贅述了。分析結果如下圖所示。

VosViewer正確識別出了我們查詢的文獻主題是大資料和競爭情報的關聯，而且揭示了許多文獻採用的方法是Web資訊抽取。

必須說明，此處我們只是為了展示操作方法，採用了非常簡單的文獻集。引數設定也沒有經過合理的調整。從數量這麼小的文獻集合裡，能獲得的知識和洞見是非常有限的。如果你積攢的PDF檔案數量足夠多，那效果就會大不一樣了。

小結

讀過本文後，希望你已瞭解以下內容：

如何用Zotero匯入和管理PDF文獻；
如何用Zotero抓取PDF文獻的元資料；
如何將Zotero中的文獻集合資訊輸出給VosViewer等視覺化分析工具；
如何挖掘和準確定義使用者的需求；
如何結合不同的工具來綜合解決問題，嘗試滿足使用者需求。

與Zotero類似的文獻管理工具還有很多。Mendeley, Papers, ReadCube等工具都很優秀，也具備PDF元資訊獲取功能。我個人偏好Zotero，因為它小巧、強大，還免費。

如何對PDF文獻做視覺化分析？

疑問

痛點

工具

操作

小結

如何對PDF文獻做視覺化分析？

用R做中文LDA主題模型視覺化分析

用它來做資料視覺化分析，真的很簡單，老闆誇我效率高

使用Python對大腦成像資料進行視覺化分析

視覺化分析 web 訪問日誌

【16-20】視覺化：jupyter notebook做視覺化

空間相互作用資料探勘及視覺化分析相關文章綜述

missingno庫---缺失值視覺化分析

基於30多萬條招聘資訊的熱門城市、地域、薪資、人才要求的R語言資料視覺化分析

5個常用的大資料視覺化分析工具，你知道嗎？

人人都是資料分析師：Tableau應用實戰(三)初級視覺化分析

Python進行資料視覺化分析快速教程例項

爬取貓眼短評相關資料視覺化分析《悲傷逆流成河》 | 郭敬明五年電影最動人之作

【手把手教你】Python獲取財經資料和視覺化分析

hue快速入門--Hadoop視覺化分析利器

雲端計算的四大市場優勢和四大頂尖開源資料視覺化分析工具分享

55 個實用的大資料視覺化分析工具

基於ELK 的 Apache 日誌視覺化分析

訓練過程--首層的視覺化分析

Python商品資料預處理與K-Means聚類視覺化分析

如何對PDF文獻做視覺化分析？

疑問

痛點

工具

操作

小結

相關推薦