python3用PyPDF2解析pdf檔案，用正則匹配資料

阿新 • • 發佈：2018-12-18

    import PyPDF2
    import re

    pdf_file = open('xxx.pdf', mode='rb')
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    # 獲取pdf檔案的所有頁數
    number_of_pages = read_pdf.getNumPages()
    # print('total_page: ', number_of_pages)
    line_list = []
    # 迴圈遍歷每一頁
    for i in range(0, number_of_pages):
        # 讀取每一頁的內容
        page = read_pdf.getPage(i)
        page_content = page.extractText()
        # 將這一頁的內容分割為列表，，並相加所有的頁面內容
        line_list += page_content.split()
    # 關閉pdf檔案
    pdf_file.close()
    line_buf = ''
    for buf in line_list:
        line_buf = line_buf+' '+buf
    # 匹配資料：第一列和第二列  如：000069.sz  和 100
    # print(line_buf)
    a = re.findall('([0-9]+[0-9]+[0-9]+[0-9]+[0-9]+[0-9]+.[a-z]+[a-z])', line_buf)
    b = re.findall('[0-9]+[0-9]+[0-9]+[0-9]+[0-9]+[0-9]+.[a-z]+[a-z].([0-9,]+)', line_buf)
    # print(b)
    for i in range(0, len(a)):
        a[i] = a[i].upper()
    for i in range(0, len(b)):
        b[i] = int(b[i].replace(',', ''))
    # print(b)
    # 組成字典
    results = dict(zip(a, b))

正則的其他用法：

fp = open(filename,"w")

fp.write(re.search('(StockDescription:)([a-zA-Z]+-[a-zA-Z]+)',line_buf).group(2) +',')

fp.write(time.strftime('%Y%m%d',time.strptime(re.search('(TradeDate:)([0-9]+[a-zA-Z]+[0-9]+)',line_buf).group(2),'%d%B%Y')) +',')

fp.write(re.search('(Price:[A-Z]+)([0-9.,]+)',line_buf).group(2).replace(',','')+',')

fp.close()

python3用PyPDF2解析pdf檔案，用正則匹配資料

import PyPDF2 import re pdf_file = open('xxx.pdf', mode='rb') read_pdf = PyPDF2.PdfFileReader(pdf_file) # 獲取pdf檔案的所

centos下ppt(pptx)檔案轉換為pdf檔案，用PHP顯示內容

1、搭建jdk環境，這裡不詳細介紹。 2、安裝OpenOffice OpenOffice下載地址http://softlayer-dal.dl.sourceforge.net/project/openofficeorg.mirror/4.0.0/binaries/zh-CN/Apache_OpenOff

用scp後臺傳輸檔案，用rsync進行斷點續傳

1. scp後臺傳輸檔案用nohup命令 $nohup scp file [email protected]:/file > nohup.out 2>&1 輸入

用dom4j解析xml檔案寫入記事本時，解決換行問題

} try { OutputFormat format = new OutputFormat(" ",true); format.setLineSeparator("/n/r"); XMLWriter xmlWriter = new XMLWriter(new

js解析Excel檔案，解析後的資料用Echarts折線圖展示

不多說了，直接上程式碼 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>js解析Excel</title> <

在Flashplayer中顯示PDF檔案， SWFTools怎麼用

目前在百度文件和另外一個什麼線上文件中見過這個做法，在美國的box網站也見過。在網址：http://www.swftools.org/download.html（或http://wiki.swft

Swift: 用Alamofire做http請求，用ObjectMapper解析JSON

not tis ati obj 有意 objects 映射 loaddata api 演示樣例代碼看最後。跟不上時代的人突然間走在了時代的前列，果然有別樣的風景

用JDOM解析XML檔案時如何解決中文問題？如何解析？

1 import javax.xml.parsers.DocumentBuilder; 2 import javax.xml.parsers.DocumentBuilderFactory; 3 import javax.xml.transform.OutputKeys; 4 import jav

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

我們接觸到的很多文件資料都是以pdf格式存在的，比如：論文，技術文件，標準檔案，書籍等。pdf格式使得用機器從中提取資訊格外困難。為了解決這個問題，我找到了幾種解決方案，最後選擇了python上的pdfplumber庫，安裝和使用都相對比較方便，效果也還不錯，所以下面介紹這個庫的安裝與使用。安裝我的電

用python解析word檔案（段落篇（paragraph）表格篇（table）樣式篇（style））

首先需要安裝相應的支援庫：直接在命令列執行pip install python-docx 示例程式碼如下： import docxfrom docx import Document #匯入庫 path = "E:\\python_data\\1234.docx" #檔案路徑document = Doc

如何使用objective c上傳檔案，用flask接收檔案

flask是python中類似於php的伺服器元件。 ios提供了NSMutableArray和 dataTaskWithRequest用來使用http上傳資料。但是flask只支援基於表單格式的資料。表單格式是在原始http資料上，提供了額為的資訊。如果直接使用ios的api把資料傳送給

dump解析入門-用VS解析dump檔案進行排障

突然有一天部署在伺服器的一個應用掛掉了，沒辦法只能進入伺服器開啟【事件檢視器】檢視下，好不容易找到了開啟後一臉懵逼事件檢視器查到的內容根本對我們排障沒有任何作用。在這個時候如果有對應的dump檔案就能派上用場了，只要有dump檔案就能查到應用掛掉那刻的一手情報，可能有人

poi用jdom解析xml檔案方式定製Excel模板

java程式碼 package com.td.store.utils; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStream; import java

centos7 C++ 用 bmplib解析bmp檔案

下載地址：https://download.csdn.net/download/sz76211822/10800716 #ifndef __PARSE_BMP__ #define __PARSE_BMP__ #include <sys/types.h> #include <

12行程式碼教會你用python讀excel檔案，提取資料，生成條形碼

一、需求分析條形碼應用廣泛，尤其是人事、財務和庫管等等崗位，常需根據excel檔案成批生成條碼，如果是經常性天天做，用excel的自己控制元件還是很枯燥煩人的。當然在學習Python的道路上肯定會困難，沒有好的學習資料，怎麼去學習呢？

JAVA以UTF-8編碼格式匯出CSV檔案，用office開啟產生亂碼的解決方法

一般java匯出為csv檔案程式碼如下 OutputStreamWriter osw = new OutputStreamWriter(resp.getOutputStream

windows下用Python把pdf檔案轉化為圖片(png格式)

最近工作中需要把pdf檔案轉化為圖片，想用python來實現，於是在網上找啊找啊找啊找，找了半天，倒是找到一些程式碼。 1、第一個找到的程式碼，我試了一下好像是反了，只能實現把圖片轉為pdf，而不能

誤刪除 linux 系統檔案，用extundelete可以恢復

說在前面的話針對日常維護操作，難免會出現檔案誤刪除的操作。大家熟知linux檔案系統不同win有回收站，刪除後的檔案可以到垃圾箱尋回，要知道linux檔案修復比較費勁，網路上面的文件也是五花八門。所以本次研究一種比較靠譜的檔案和目錄恢復方法，也給維護人員留一條後路。分析對比debugfs

CStdioFile類開啟檔案，用TextOut輸出時亂碼……

幾天前開始學習VC++（MFC）了，我很是激動，因為以前上課講了C/C++，但是那都是些基礎的運算，還沒有真正的涉及到程式設計的實質性東西，現在我終於決定要學習編寫一個程式了，我決定寫一個小程式，文字閱讀器，就像Windows的記事本一樣的東西。但是一開始就遇到非常大

使用外部屬性檔案（通常用來配置系統檔案，比如資料來源）

一：使用外部屬性檔案 1.在配置檔案裡配置Bean時，有時需要在Bean的配置裡混入系統部署的細節資訊（例如：檔案路徑，資料來源，等其他配置資訊）而這些部署細節實際上需要和Bean配置相分離的 2.spring提供了一個PropertyplaceholderConfigures的Bea

python3用PyPDF2解析pdf檔案，用正則匹配資料

相關推薦