1. 程式人生 > >提取PDF檔案中的文字資訊

提取PDF檔案中的文字資訊

      我們從網上下載的PDF檔案有的是加密處理過的,無法複製其中的內容,對於這類檔案的內容提取可以通過該工具實現

PDF加密

      PDF檔案經過加密處理之後是無法簡單的複製的,PDF檔案的屬性也如下圖所示:


工具的使用方法

      軟體的目錄結構如下圖:


lib資料夾下是程式的執行環境和程式碼;

pdf資料夾是需要轉化的pdf檔案所在的資料夾;

txt資料夾是轉化後生成的txt檔案所在的資料夾;

run.bat是執行檔案。

      將要轉換的pdf檔案放到pdf資料夾下,直接雙擊run.bat檔案即可(ps:程式是後臺執行,會花費一定的時間)

測試執行結果


如有需要,在評論中留下郵箱即可(原本想放到資源上的,無奈有大小限制,只得放棄)

原始碼不大,主要是有程式碼執行的JDK環境,不放環境,電腦沒安裝JDK就無法使用,等個人域名備案成功之後,會將該程式放到自己的網站上。

無jdk的下載地址:http://download.csdn.net/detail/xiaojimanman/8426309 (下載後需要電腦安裝1.7及以上的jdk)