首页 > Windows开发 > 详细

C#读取PDF文档内容

时间:2015-10-08 10:34:00      阅读:304      评论:0      收藏:0      [点我收藏+]

一、下载PDFBox

      访问网址http://sourceforge.net/projects/pdfbox/ (这个绝对是个好网站)


二、引用动态链接库

    解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
    IKVM.GNU.Classpath.dll
    PDFBox-0.7.3.dll
    FontBox-0.1.0-dev.dll
    IKVM.Runtime.dll


将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
    using org.pdfbox.pdmodel;
    using org.pdfbox.util;

三、API的使用方法

using System.IO;
using System.Text;
using org.pdfbox.pdmodel;
using org.pdfbox.util;

namespace PDFReader
{
    class Program
    {
        public static void pdf2txt(FileInfo pdffile, FileInfo txtfile)
        {
            PDDocument doc = PDDocument.load(pdffile.FullName);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            string text = pdfStripper.getText(doc);
            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
            swPdfChange.Write(text);
            swPdfChange.Close();
        }
        static void Main(string[] args)
        {
            pdf2txt(new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.pdf"), new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.txt"));
        }
    }
}

 

C#读取PDF文档内容

原文:http://www.cnblogs.com/swtool/p/4860049.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!