1. 程式人生 > >C#讀取中文PDF中的內容

C#讀取中文PDF中的內容

從PDF中抓取相應的資訊是資料處理常見的一個操作。但是由於PDF現在都是由國外技術人員開發的,有可能存在漢字編碼問題。比如著名的 Spire.PDF 就對中文支援不好(如果有好的方法良好支援中文,歡迎告之,謝謝)。
好在總有支援的第三方,iTextSharp的PDF轉換工具就可以很好地支援。用法也非常簡單,主要核心程式碼如下所示。

		public string ExtractTextFromPDF(string pdffilename)
		{
			StringBuilder text = new StringBuilder();
			try
			{
				PdfReader
pdfReader = new PdfReader(pdffilename); int numberOfPages = pdfReader.NumberOfPages; for (int i = 0; i < pdfReader.NumberOfPages; i++) { // Page number starts from 1. text.Append(iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i + 1)); } pdfReader.
Close(); } catch (Exception ex) { Console.WriteLine("Extracting text from the input PDf file error. Reason:" + ex.ToString()); } return text.ToString(); }

另附:itextsharp.dll 下載