牛骨文教育服务平台(让学习变的简单)
博文笔记

读取pdf文件内容

创建时间:2012-11-14 投稿人: 浏览次数:962

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class StreamDemo_18 {

    /**
     * @param 读取PDF文件
     */
    public static void main(String[] args) {
        StreamDemo_18 pdf = new StreamDemo_18();
        String pdfName = "D:\temp\myPDF.pdf";
        pdf.readFileOfPDF(pdfName);

    }

    // 读取指定的PDF文件的内容,其中:pdfName表示要读取的PDF文件的路径
    public void readFileOfPDF(String pdfName) {
        File file = new File(pdfName);// 创建一个文件对象
        FileInputStream infile = null;
        try {
            infile = new FileInputStream(pdfName);// 创建一个文件输入流
            // 新建一个PDF解析器对象
            PDFParser parser = new PDFParser(infile);
            // 对PDF文件进行解析
            parser.parse();
            // 获取解析后得到的PDF文档对象
            PDDocument pdfdocument = parser.getPDDocument();
            // 新建一个PDF文本剥离器
            PDFTextStripper stripper = new PDFTextStripper();
            // 从PDF文档对象中剥离文本
            String context = stripper.getText(pdfdocument);
            System.out.println("PDF文件" + file.getAbsolutePath() + "的文本内容如下:");
            System.out.println(context);

        } catch (Exception e) {
            System.out.println("读取PDF文件" + file.getAbsolutePath() + "失败!"
                    + e.getMessage());
        } finally {
            if (infile != null) {
                try {
                    infile.close();
                } catch (IOException e1) {
                }
            }
        }
    }
}


声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。