C#讀取中文PDF中的內容
阿新 • • 發佈:2018-12-04
從PDF中抓取相應的資訊是資料處理常見的一個操作。但是由於PDF現在都是由國外技術人員開發的,有可能存在漢字編碼問題。比如著名的 Spire.PDF 就對中文支援不好(如果有好的方法良好支援中文,歡迎告之,謝謝)。
好在總有支援的第三方,iTextSharp的PDF轉換工具就可以很好地支援。用法也非常簡單,主要核心程式碼如下所示。
public string ExtractTextFromPDF(string pdffilename)
{
StringBuilder text = new StringBuilder();
try
{
PdfReader pdfReader = new PdfReader(pdffilename);
int numberOfPages = pdfReader.NumberOfPages;
for (int i = 0; i < pdfReader.NumberOfPages; i++)
{
// Page number starts from 1.
text.Append(iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i + 1));
}
pdfReader. Close();
}
catch (Exception ex)
{
Console.WriteLine("Extracting text from the input PDf file error. Reason:" + ex.ToString());
}
return text.ToString();
}
另附:itextsharp.dll 下載