Java 读取PDF文本内容

 时间:2024-10-13 00:43:02

以下示例将介绍如何通过Java编程来读取PDF文档中的文本内容。

工具/原料

Spire.PDF for Java

文件引用

1、首先,在Java程序中新建一个文件夹可命名为Lib。下载控件包后,解压,将解压后的文件夹下的子文件夹造婷用痃lib中的Spire.Pdf.jar和Spire.Common.jar两个文件复制到新建的文件夹下,如下图:

Java 读取PDF文本内容

2、建好文件夹后,引用两个文件:选中这两个文件,任意点击其中之一,选择“Build Path” – “Add to Build Path”。

Java 读取PDF文本内容

Java代码示例(供参考)

1、 //创建PdfDocument实例 PdfDocument doc = new PdfDocu罪焐芡拂ment(); //加载PDF文件 doc.loadFromFile("sample.pdf"); //创建StringBuilder实例 StringBuilder sb = new StringBuilder(); PdfPageBase page; //遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象 for(int i= 0;i<doc.getPages().getCount();i++){ page = doc.getPages().get(i); sb.append(page.extractText(true)); } FileWriter writer; try { //将StringBuilder对象中的文本写入到文本文件 writer = new FileWriter("ExtractText.txt"); writer.write(sb.toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } doc.close();

2、测试文档:

Java 读取PDF文本内容

3、读取结果:

Java 读取PDF文本内容
  • 如何使用FineReport报表工具实现报表列排名
  • 剑灵55级后怎么弄装备
  • bootstrap-table如何固定高度
  • BarTender打印标签后如何紧接着打一个空白标签
  • 怎样使用VBA对选区文本以字母顺序升序排序?
  • 热门搜索
    初中语文手抄报 爱国主义手抄报内容 与法同行手抄报内容 关于运动会的手抄报 小学生诚信手抄报 迈好初中第一步手抄报 小学法制教育手抄报 家庭教育手抄报 关于欢度春节的手抄报 小学生安全手抄报大全