C#讀取中文PDF中的內容

阿新 • • 發佈：2018-12-04

從PDF中抓取相應的資訊是資料處理常見的一個操作。但是由於PDF現在都是由國外技術人員開發的，有可能存在漢字編碼問題。比如著名的 Spire.PDF 就對中文支援不好（如果有好的方法良好支援中文，歡迎告之，謝謝）。
好在總有支援的第三方，iTextSharp的PDF轉換工具就可以很好地支援。用法也非常簡單，主要核心程式碼如下所示。

		public string ExtractTextFromPDF(string pdffilename)
		{
			StringBuilder text = new StringBuilder();
			try
			{
				PdfReader 
 pdfReader = new PdfReader(pdffilename);
				int numberOfPages = pdfReader.NumberOfPages;
				for (int i = 0; i < pdfReader.NumberOfPages; i++)
				{
					// Page number starts from 1.
					text.Append(iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i + 1));
				}
				pdfReader. 
Close(); 
			}
			catch (Exception ex)
			{
				Console.WriteLine("Extracting text from the input PDf file error. Reason：" + ex.ToString());
			}
			return text.ToString();
		}

另附：itextsharp.dll 下載

C#讀取中文PDF中的內容

從PDF中抓取相應的資訊是資料處理常見的一個操作。但是由於PDF現在都是由國外技術人員開發的，有可能存在漢字編碼問題。比如著名的 Spire.PDF 就對中文支援不好（如果有好的方法良好支援中文，歡迎告之，謝謝）。好在總有支援的第三方，iTextSharp的PDF轉換工具就可以很好地支援。

C# 如何在PDF中繪制不同風格類型的文本

src 一個操作 system HERE pri 添加風格 rest 通過對控件Spire.PDF的測試，我們可以創建PDF文件並向文檔中繪制文本、圖片、表格、圖形等內容，其中，對於繪制文本這一部分，Spire.PDF提供了三種字體類型來繪制文本呢，即： Standa

c++讀取資料夾中檔案

直接上程式碼： void getFiles(string path, vector<string>& pic_files) { //檔案控制代碼 intptr_t hFile; //檔案資訊 struct _finddata_t fil

Python OpenCV _1基本操作（畫圖，迴圈播放影象，滑鼠事件，讀取中文路徑中的圖片）

此係列原始碼在我的GitHub裡：https://github.com/yeyujujishou19/Python-OpenCV 一，OpenCV的結構 A）根據功能和需求的不同，OpenCV中的函式介面大體可以分為如下部分： core 核心模組，主要包

用C＃在PDF中建立數字簽名

數字簽名是電子檔案交換時代簽署檔案的另一種方式。毫無疑問，用PDF建立數字簽名成為保護PDF檔案免受編輯和篡改的最常用方法之一。本節將介紹通過.NET PDF元件在PDF中建立數字簽名的解決方案。 Spire.PDF for .NET具有豐富的保護和操作PDF文件的功能，允許您通過使用C＃，VB

C++讀取網路url檔案內容

檔案地址為“http://www.baidu.com/xxx.txt” // readTxt.cpp :Defines the entry point for the console application. // #include "stdafx.h" #inclu

[C#新手入門九] C#讀取Excel表中的資料時，有的資料讀取不到

今天把程式釋出到伺服器IIS後，執行發現一個問題，有的excel匯入模板出現匯入資料丟失，某列第一行是空白沒有值，後面是數字型別的資料，匯入時整列值後變成空白了。匯入的方式是在客戶機選擇Excel匯入模板，上傳到伺服器，在伺服器上執行讀取Excel，資料寫入資料庫。

C#讀取Excel表格中資料並返回datatable

在軟體開發的過程中，經常用到從excel表格中讀取資料作為資料來源，以下整理了一個有效的讀取excel表格的方法。 DataTable GetDataTable(string tableName,string leftTopCel,string rightbutCel)

c#讀取txt文字中的某一行

如果要讀取文字中指定的某一行的資訊，可以藉助正則表示式的一個方法實現，實現原理就是將其分解成陣列，然後直接讀取陣列中指定元素： private void fileSystemWatcher_Chan

C#中StreamReader讀取中文時出現亂碼問題總結

utf8編碼新的 conf window linu img utf8 enc ref 之前有一篇文章“ C#讀取及寫入配置文件教程”（http://blog.csdn.net/lisenyang/article/details/47291083）當中有一個問題就是在讀

[轉]C#中StreamReader讀取中文出現亂碼

摘自：C#中StreamReader讀取中文出現亂碼原因是自Windows 2000之後的作業系統在檔案處理時預設編碼採用Unicode所以.NET檔案的預設編碼也是Unicode。除非另外指定，StreamReader的預設編碼為Unicode，而不是當前系統的ANSI內碼表。但是文件大部分還是以ANS

C#.net讀取Excel表中的資料時，有些欄位內容(字串、數字)讀取不到的解決辦法

匯入Excel時，會丟失一些手機號，或者固定電話號問題出在於，他們將資料填入Excel時，有些格式是數值型別，有些是文字型別當用OLEDB讀取Excel的時候,在Extended Properties中若沒有配置IMEX=1的屬性,微軟的處理機制是將列轉換為同一

C#讀取PDF、TXT內容

//讀取PDF內容 private void button2_Click(object sender, EventArgs e) { label3.Text = OnCreated("D:\\aa.pdf"); }

C#從json檔案中讀取內容

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; u

JAVA中通過poi和pdfbox讀取office檔案和pdf檔案內容

xlsx* @param file* @return* @throws IOException*/public static String readEXCEL2007(String file) throws IOException {StringBuilder content = new StringBuil

C# 使用NPOI讀取Excel表格中第一個sheet中內容存在DataTable中

很久沒寫文章了，主要是從java轉到c#,經歷坎坷一言難盡呀，但最重的一點，就是變懶了。希望你們不要學小編。。。咳咳。。好乾貨開始。二、前端用form表單提交即可,js或jq觸發form提交即可 <form class="form-hori

jsp中讀取數據庫內容（一）

reat cor mysq ava roo 數據 state imp nav 在jsp中將數據庫表格內容讀出為一個表格，並在表格中添加超鏈接： 1 <%@ page language="java" contentType="text/html; charset=U

C# 讀取指定文件夾中的全部文件,並按規則生成SQL語句！

fun .text line -m ava inf hid 語句 ade 本實例的目的在於: 1 了解怎樣遍歷指定文件夾中的全部文件 2 控制臺怎樣輸入和輸出數據代碼: using System; using System.IO; nam

C#讀取EXL中的數據步驟案例

adapter source ati 路徑 open rgs ace collect ons using System;using System.Collections.Generic;using System.Linq;using System.Text;using Sy

C#在PDF中如何以不同顏色高亮文本

.net c# pdf 文本高亮高亮的文本有助於閱讀者快速有效地獲取文章關鍵信息。在PDF文件中，對文章的不同文本，關鍵詞、句等進行不同顏色的文本高亮操作，可以使閱讀者在閱讀過程中有效地區分不同高亮顏色文本的意義。在下面的示例中，我使用Free Spire.PDF for .NET來進行操作

C#讀取中文PDF中的內容

相關推薦