利用python分析pdf資料，分析上市公司財報

阿新 • • 發佈：2021-01-21

import re
import os.path
import matplotlib
import matplotlib.pyplot as plt
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from IPython.display import display, HTML
from pandas import DataFrame
# from adjustText import adjust_text


# 解析PDF文字，並儲存到TXT檔案中
def parse(pdf_path):
    TEXT = ''
    fp = open(pdf_path, 'rb')
    # 用檔案物件建立一個PDF文件分析器
    parser = PDFParser(fp)
    # 建立一個PDF文件
    doc = PDFDocument()
    # 連線分析器，與文件物件
    parser.set_document(doc)
    doc.set_parser(parser)

    # 提供初始化密碼，如果沒有密碼，就建立一個空的字串
    doc.initialize()

    # 檢測文件是否提供txt轉換，不提供就忽略
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 建立PDF，資源管理器，來共享資源
        rsrcmgr = PDFResourceManager()
        # 建立一個PDF裝置物件
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 建立一個PDF解釋其物件
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # 迴圈遍歷列表，每次處理一個page內容
        # doc.get_pages() 獲取page列表
        startIndex = 0
        isEnd = False

        for page in doc.get_pages():
            interpreter.process_page(page)
            # 接受該頁面的LTPage物件
            layout = device.get_result()
            # 這裡layout是一個LTPage物件 裡面存放著 這個page解析出的各種物件
            # 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等
            # 想要獲取文字就獲得物件的text屬性，

            for x in layout:
                if(isinstance(x, LTTextBoxHorizontal)):
                    text = x.get_text()
                    if(text.find('公司簡介和主要財務指標')) > 0:
                        startIndex += 1
                    if(startIndex == 2):
                        TEXT += text

                    if(text.find('主要會計資料和財務指標')) > 0:
                        isEnd = True
            if(isEnd):
                break

    return TEXT


dir_path = os.path.abspath('.') + '\\pdf_files'
files = os.listdir(dir_path)
# print(files)

pdfList = []
for file in files:
    pdf_path = dir_path + '\\' + file
    pdfList.append(parse(pdf_path))

comInfoList = []

for pdf in pdfList:
    comInfo = {}
    r = r'(?<=股票簡稱)\s*[^\n]+'
    comInfo['股票簡稱'] = re.findall(r, pdf)[0].strip() if re.search(r, pdf) else ''

    r = r'(?<=股票程式碼)\s*[^\n]+'
    comInfo['股票程式碼'] = re.findall(r, pdf)[0].strip() if re.search(r, pdf) else ''

    r = r'(?<=公司的法定代表人)\s*[^\n]+'
    comInfo['公司的法定代表人'] = re.findall(r, pdf)[0].strip() if re.search(r, pdf) else ''

    r = r'(?<=辦公地址)\s*[^\n]+'
    comInfo['辦公地址'] = re.findall(r, pdf)[0].strip() if re.search(r, pdf) else ''

    r = r'(?<=公司國際網際網路網址)\s*[^\n]+'
    comInfo['公司網址'] = re.findall(r, pdf)[0].strip() if re.search(r, pdf) else ''

    r = r'(?<=電子信箱)\s*[^\n]+'
    comInfo['電子信箱'] = re.findall(r, pdf)[0].strip() if re.search(r, pdf) else ''

    r = r'(?<=營業收入（元）)\s*(([^\n]+\n){4})'

    m = re.findall(r, pdf)[0]
    s = ''.join(m).replace(' ', '').split('\n')

    comInfo['2019年營業收入元'] = s[0]
    comInfo['2018年營業收入元'] = s[1]
    comInfo['2017年營業收入元'] = s[3]

    comInfoList.append(comInfo)

# print(comInfoList)
data = {'股票簡稱': [], '股票程式碼': [], '公司的法定代表人': [], '辦公地址': [], '公司網址': [], '電子信箱': []}
data2 = {'股票簡稱': [], '股票程式碼': [], '2019': [], '2018': [], '2017': []}

for comInfo in comInfoList:
    data['股票簡稱'].append(comInfo['股票簡稱'])
    data['股票程式碼'].append(comInfo['股票程式碼'])
    data['公司的法定代表人'].append(comInfo['公司的法定代表人'])
    data['辦公地址'].append(comInfo['辦公地址'])
    data['公司網址'].append(comInfo['公司網址'])
    data['電子信箱'].append(comInfo['電子信箱'])

    data2['股票簡稱'].append(comInfo['股票簡稱'])
    data2['股票程式碼'].append(comInfo['股票程式碼'])
    data2['2019'].append(comInfo['2019年營業收入元'])
    data2['2018'].append(comInfo['2018年營業收入元'])
    data2['2017'].append(comInfo['2017年營業收入元'])

print('1. 提取：股票簡稱、股票程式碼、公司的法定代表人、辦公地址、公司網址、電子信箱')
df = DataFrame(data)
display(HTML(df.to_html()))

print('2. 提取：主要會計資料和財務指標——第01-10位：最近三年營業收入（元）')
df2 = DataFrame(data2)
display(HTML(df2.to_html()))

print('3. 所有同學，畫一張或幾張圖，呈現一些規律')
matplotlib.rcParams['font.sans-serif'] = ['SimHei']  # 用黑體顯示中文

x = ['2017', '2018', '2019']

# texts = []
for comInfo in comInfoList:
    y = [round(float(comInfo['2017年營業收入元'].replace(',', ''))/1000000, 2), round(float(comInfo['2018年營業收入元'].replace(',', ''))/1000000, 2), round(float(comInfo['2019年營業收入元'].replace(',', ''))/1000000, 2)]
    plt.plot(x, y, label=comInfo['股票簡稱'])
    for xx, yy in zip(x, y):
        plt.text(xx, yy + 1, str(yy), ha='center', va='bottom', fontsize=10)
        # texts.append(str(yy))

# new_texts = [plt.text(x_, y_, text, fontsize=10) for x_, y_, text in zip(x, y, texts)]
# adjust_text(new_texts, only_move={'text': 'x'}, arrowprops=dict(arrowstyle='-', color='grey'), save_steps=True)

plt.xlabel("年份")
plt.ylabel("營業收入(百萬元)")
plt.title("2017-2019各公司營業收入趨勢圖")
plt.legend(loc="upper left")

plt.show()

x = data['股票簡稱']
ys = []
for comInfo in comInfoList:
    y = []
    y.append(round(float(comInfo['2017年營業收入元'].replace(',', ''))/1000000, 2))
    y.append(round(float(comInfo['2018年營業收入元'].replace(',', ''))/1000000, 2))
    y.append(round(float(comInfo['2019年營業收入元'].replace(',', ''))/1000000, 2))
    ys.append(y)

chart = DataFrame(
     data=ys,
     index=x, columns=[2017, 2018, 2019])

chart.plot(kind='bar')

plt.title("各公司營業收入2017-2019年度對比圖")
plt.ylabel("營業收入(百萬元)")
plt.legend()
plt.xticks(rotation=45)

plt.show()

print('4. 基於所畫圖，做一些文字解讀')

利用python分析pdf資料，分析上市公司財報

import re import os.path import matplotlib import matplotlib.pyplot as plt from pdfminer.pdfparser import PDFParser, PDFDocument

使用功率分析儀評測一款藍芽4.0低功耗耳機資料，分析該款藍芽耳機的低功耗控制情況，供參考！

#4.0藍芽耳機功耗評測#該產品採用高通CRS8635, 藍芽版本4.0+，官宣可播放音樂10小時，待機240小時。拆開後沒看到電池容量標識，根據功耗評測結果，能估算出產品的電池容量？

五角大樓研發新 AI：實時分析海陸空資料，可“預測未來”

8 月 5 日訊息，據外媒報道，美國軍方正在測試一款新 AI，該人工智慧能及時分析全球感測器資料並作出預警，這可以幫助美軍提前幾天預測敵人的下一步行動。

利用Python實現字幕掛載，把字幕檔案與視訊合併

其實超簡單超簡單！python好現成的庫，一下子省略了好多步驟！本文在Windows環境下！linux只是不需要手動輸入imagicmagick的位置！

利用Python如何實現資料驅動的介面自動化測試

前言大家在介面測試的過程中，很多時候會用到對CSV的讀取操作，本文主要說明Python3對CSV的寫入和讀取。下面話不多說了，來一起看看詳細的介紹吧。

利用python將PDF文件轉語音

技術標籤：pdfpython win10 python3.9 測試通過： import pdfplumber # 讀取PDF文件 pdf = pdfplumber.open("d:/電子書/終身成長.pdf")

利用Python將PDF文件轉為MP3音訊

1. 轉語音工具微信讀書有一個功能，可以將書裡的文字轉換為音訊，而且聲音優化的不錯，比傳統的機械朗讀聽起來舒服很多。

利用 Python Fitter 判斷資料樣本符合那種分佈函式

# Python擬合數據樣本的分佈 # 安裝fitter # pip install fitter # 生成一段模擬資料 from scipy import stats

用python合併pdf檔案，基於tkinter+PyPDF。

1 from tkinter import * 2 from pathlib import Path 3 from tkinter.messagebox import * 4 from PyPDF2 import PdfFileMerger, PdfFileReader, PdfFileWriter

利用python給pdf新增目錄

利用tampermonkey的知網下載助手指令碼下載pdf格式論文時，發現論文缺少書籤，而指令碼可以下載一個txt格式的書籤（目錄），因此打算利用python將txt格式的目錄新增到pdf中。

質量看板開發實踐(一)：利用python獲取jira資料-基礎篇

最近一段時間，寫了一個簡易的測試質量看板，能夠從不同維度檢視缺陷分佈情況；另外由於公司用的jira，所以也彙總了故事卡以及每個人的故事點情況

利用python內建函式，快速統計單詞在文字中出現的次數

#coding=utf-8 import collections import os with open(\'str.txt\') as file1:#開啟文字檔案 str1=file1.read().split(\' \')#將文章按照空格劃分開

OKEx遭遇重創！實控人徐明星被帶走，港股上市公司：其已失聯

OKEx正經歷在其成立以來的第二大危機。10月18日晚間，港股上市公司歐科雲鏈（HK:01499）公告稱，其控股股東、非執行董事徐明星正在接受警方調查，目前已經處於失聯狀態。

Chrome 新惡意外掛曝光：偷取使用者資料，來自安全公司

2月7日訊息克羅埃西亞安全研究員 Bojan Zdrnja 週四表示，最近他發現了一款新的 Chrome 惡意擴充套件程式，會濫用 Chrome 同步功能，將其作為與遠端命令和控制（C&C）伺服器進行通訊的方式，然後從受感染的瀏覽器

小米再次上榜福布斯，全球上市公司中位列第 222 位

5 月 17 日訊息根據小米公司官方訊息，近日國外《福布斯》雜誌釋出了 2021 年“全球上市公司 2000 強”排行榜（Forbes Global 2000）。小米公司位列第 222 位，較去年排名上升 162 位。

投資 4.54 億，國內上市公司擴大磷酸鐵鋰電池回收業務

5 月 25 日晚，光華科技（002741.SZ）釋出公告稱，公司將在現有廠區內建設廢舊鋰電池高效綜合利用暨高效能電池材料擴建專案，專案總投資約 4.54 億元，其中建設投資為 3.29 億元，鋪底流動資金為 1.25 億元。

投資者對蘋果等頂級科技公司財報持謹慎態度，美股終結五連漲

北京時間 7 月 28 日訊息，由於投資者對蘋果等頂級科技公司財報以及明天將會公佈的美聯儲會議結果持謹慎態度，美股昨晚終結了五連漲，科技板塊領跌。

美的集團：互動易回覆金額系工作人員手誤，2021 年 Q3 財報其他流動負債為 492 億元

3 月 4 日訊息，據財聯社報道，美的集團表示，公司 2021 年第三季度財報其他流動負債為 492 億元，互動易回覆金額系工作人員手誤，現已更新。昨日，美的集團在互動易平臺稱：“根據公司 21 年第三季度財報，流動負債

利用Python進行資料分析原文PDF分享

這本書幾乎是資料分析入門必讀書了主要介紹了python 3個庫numpy（陣列），pandas（資料分析）和matplotlib（繪圖）的學習

利用Python進行資料分析 PDF完整版

需要的點選這裡自取內容簡介 · · · · · · 【名人推薦】 “科學計算和資料分析社群已經等待這本書很多年了：大量具體的實踐建議，以及大量綜合應用方法。本書在未來幾年裡肯定會成為Python領域中技

利用python分析pdf資料，分析上市公司財報

相關推薦