PDF檔案表格資料處理

阿新 • • 發佈：2019-01-10

由於要處理PDF檔案格式的表格資料，查了好多資料都是寫普通PDF檔案的操作，最後選定了劃定區域獲取文字的方式來處理資料

資料格式如下：

code如下:

//pdf模板處理
private static void fillTemplete(){
   String templetePath = "E:\\testTable.pdf";
   String data = "";
   List<User> listUser = new ArrayList<>();
   try {
      PDDocument document = PDDocument.load(new File(templetePath));
      if(document.isEncrypted()){
         try{
            document.decrypt( "" );
         } catch (Exception e){
         }
      }
      PDFTextStripperByArea stripper = new PDFTextStripperByArea();
      stripper.setSortByPosition(true);
      //劃定區域
      Rectangle rect= new Rectangle(0, 0, 700, 800);
      stripper.addRegion("area", rect);
      List<PDPage> allPages = document.getDocumentCatalog().getAllPages();
      int i = 0;
      for(PDPage page : allPages){
         stripper.extractRegions(page);
         i++;
         //獲取區域的text
         data = stripper.getTextForRegion("area");
         data = data.trim();
         String[] datas = data.split("\r\n");
         //對文字進行分行處理         
         for( i = 0; i<datas.length; ++i){
	    String[] strUser = datas[i].split(" ");
            User user = new User();
            user.setName(strUser[0]);
            user.setId(strUser[1]);
            user.setGender(strUser[2]);
            user.setSchool(strUser[3]);
            user.setMajor(strUser[4]);
            user.setAaa(strUser[5]);
            user.setGg(strUser[6]);
            listUser.add(user);
         }
      }
      document.close();
      for(User user :listUser){
         System.out.println(user.toString());
      }
   } catch (Exception e){
      e.printStackTrace();
   }
}

PDF檔案表格資料處理

由於要處理PDF檔案格式的表格資料，查了好多資料都是寫普通PDF檔案的操作，最後選定了劃定區域獲取文字的方式來處理資料資料格式如下： code如下: //pdf模板處理 private sta

將表格資料處理為帶【】的資料

首先，將需要用到的表格資料在Excel中處理一下，將空著的格子中填入0，具體操作，參見之後將需要融合的列資料的每一列單獨儲存在檔案中（直接選中列，複製貼上）。 Java部分的核心程式碼： public static void main(String[] ar

Python+xlrd對excel表格資料處理統計

首先，安裝xlrd，如果有原始檔，直接在命令視窗切換到原始檔中有setup.py的目錄，輸入python setup.py install，看到success就可以了，如果沒有，可以線上下載pip install xlrd（確定有pip）,或者使用命令easy_install

利用python獲取pdf檔案元資料

開發語言：python3 開發工具：pycharm python第三方模組：PyPDF2 python內建模組：sys 第一步：pycharm安裝第三方模組“PyPDF2” &n

Python 對csv格式檔案的資料處理

# Edit By Python3.6 import os,csv,pandas as pd path = 'C:\\Users\\Desktop\\NBA' filepath = os.chdir(p

Python使用Pandas對大型csv檔案進行資料處理

今天接到一個新的任務,要對一個140多M的csv檔案進行資料處理,總共有170多萬行,嘗試了匯入本地的MySQL資料庫進行查詢,結果用Navicat匯入直接卡死....估計是XAMPP套裝裡面全預設配置

python3表格資料處理

# 技術背景資料處理是一個當下非常熱門的研究方向，通過對於大型實際場景中的資料進行建模，可以用於預測下一階段可能出現的情況。比如我們有過去的2002年-2018年的黃金價格的資料： ![](https://img2020.cnblogs.com/blog/2277440/202103/2277440-202

另類爬蟲：從PDF檔案中爬取表格資料

簡介本文將展示一個稍微不一樣點的爬蟲。以往我們的爬蟲都是從網路上爬取資料，因為網頁一般用HTML,CSS,JavaScript程式碼寫成，因此，有大量成熟的技術來爬取網頁中的各種資料。這次，我們需要爬取的文件為PDF檔案。本文將展示如何利用Python的camelot模組

Python提取Excel表格資料並用DataFrame處理求平均值輸出

Python讀取Excel檔案取平均數 1.檔案讀取下面我們將對這個excel檔案進行讀取 import xlrd #xlrd是excel檔案讀取庫只讀寫 data = xlrd.open_workbook('a.xlsx

資料處理：用pandas處理大型csv檔案

在訓練機器學習模型的過程中，源資料常常不符合我們的要求。大量繁雜的資料，需要按照我們的需求進行過濾。拿到我們想要的資料格式，並建立能夠反映資料間邏輯結構的資料表達形式。最近就拿到一個小任務，需要處理70多萬條資料。我們在處理csv檔案時，經常使用pandas，可以幫助處理較大的

自然語言處理NLP技術里程碑、知識結構、研究方向和機構導師(公號回覆“NLP總結”下載彩標PDF典藏版資料)

自然語言處理NLP技術里程碑、知識結構、研究方向和機構導師(公號回覆“NLP總結”下載彩標PDF典藏版資料) 原創：秦隴紀資料簡化DataSimp 今天資料簡化DataSimp導讀：自然語言處理髮展史上的十大里程碑、NLP知識結構，以及NLP國內研究方向、機構、導師。祝大家學習

python資料處理----常用資料檔案的處理

資料處理時，常用資料儲存形式主要有：CSV、JSON、XML、EXCEL、資料庫儲存。一、CSV檔案 csv檔案簡介 CSV是一種通用的、相對簡單的檔案格式，被使用者、商業和科學廣泛應用。最廣泛的應用是在程式之間轉移表格資料，而這些程式本身是在不相容的格式上進行操作的（往往是私有的和/或無規

檔案處理將txt檔案當中資料取出進行以郵箱分類處理將郵箱拿出來寫入對應的資料夾分資料夾進行儲存新手求吐槽優化

import os pathemail = r'E:\python\7.11\郵箱.txt' with open(pathemail,'r',encoding='utf-8') as f: flist = f.readlines() for i in range(len(fli

IOS資料處理及版本特性-plist屬性列表檔案

讀取本地plist檔案 //讀取和解析Plist屬性列表檔案 let plistPath = Bundle.main.path(forResource: "DomePlist", ofType: "plist") &nbs

IOS資料處理及版本特性-對檔案,資料夾的操作

IOS資料處理及版本特性-解析XML檔案

準備一個需要解析的xml檔案 <?xml version="1.0" encoding="UTF-8" ?> <workers> <worker id='1'> <n

[Xcode10 實際操作]七、檔案與資料-(6 )通過通知中心，實現監聽和處理程式退出事件的功能

本文將演示通過通知中心，實現監聽和處理程式退出事件的功能。在專案導航區，開啟檢視控制器的程式碼檔案【ViewController.swift】 1 import UIKit 2 3 class ViewController: UIViewController { 4 5

手把手教你如何用Python從PDF檔案中匯出資料（附連結）

有很多時候你會想用Python從PDF中提取資料，然後將其匯出成其他格式。不幸的是，並沒有多少Python包可以很好的執行這部分工作。在這篇貼子中，我們將探討多個不同的Python包，並學習如何從PDF中提取某些圖片。儘管在Python中沒有一個完整的解決方案，你還是應該能夠運用這裡的技能開始上手。

mysql InnoDB idata1檔案損壞，單個恢復表格資料

伺服器異常斷電，導致mysql某一個table .idb檔案損壞，在idata1頁存在異常損壞；在開啟mysql服務一開啟就之後據自動關閉，提示異常服務終端異常； mysql資料維護人員一定要有定時備份資料，利用mysql worhbench 的management

JAVA處理Excel表格資料並寫入資料庫

Excel提供了把SQLServer作為資料來源匯入資料的技術，但似乎沒有提供方法把Excel中的資料匯入到資料庫。Apache的POI提供了Java程式對Microsoft Office格式檔案讀和寫的功能。基本功能：

PDF檔案表格資料處理

相關推薦