网站首页 > 技术文章 正文
概述
一般来说,我们无法对PDF文档格式的内容进行修改编辑,但当我们确有此需求时,可通过提取文本内容的方式来实现。本文就将介绍如何通过Java代码来提取PDF文档中的文本内容。
此教程用到的第三方控件是Free Spire.PDF for Java(免费版)。根据不同需求,它可以支持以下三方面的提取功能。
● 提取PDF文档中的所有文本内容
● 提取PDF指定页面的文本内容
● 提取PDF指定区域的文本内容
Jar包的获取及导入
在运行代码前,需将Free Spire.PDF for Java控件中的Jar包导入IDEA中。导入方式有两种:其一,在E-iceblue中文官网上下载产品包,解压后将lib文件夹下的Spire.Pdf.jar手动导入IDEA;其二,在IDEA中创建一个Maven项目,然后在pom.xml文件中键入以下代码,最后点击“Import Changes”即可。
<repositories>
<repository>
<id>com.e-iceblue</id>
<url>http://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.pdf.free</artifactId>
<version>3.9.0</version>
</dependency>
</dependencies>
示例代码
示例1 提取PDF文档中的所有文本内容
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class ExtractAllText {
public static void main(String[] args) {
//创建PdfDocument实例
PdfDocument doc=new PdfDocument();
//加载PDF文档
doc.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");
//创建StringBuilder实例
StringBuilder sb=new StringBuilder();
PdfPageBase page;
//遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象
for(int i=0;i<doc.getPages().getCount();i++){
page=doc.getPages().get(i);
sb.append(page.extractText(true));
}
FileWriter writer;
try {
//将StringBuilder对象中的文本写入到文本文件
writer = new FileWriter("output/ExtractText.txt");
writer.write(sb.toString());
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
doc.close();
}
}
提取效果:
示例2 提取PDF指定页面的文本内容
import com.spire.pdf.*;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromParticularPage {
public static void main(String[] args) throws IOException {
//加载PDF文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");
//创建.txt文件,用于保存提取的文本
String result = "output/extractTextFromAParticularPage.txt";
File file=new File(result);
if(!file.exists()){
file.delete();
}
file.createNewFile();
FileWriter fw=new FileWriter(file,true);
BufferedWriter bw=new BufferedWriter(fw);
//获取第一页的文本
PdfPageBase page = pdf.getPages().get(0);
String text = page.extractText(true);
//String text = page.extractText(false);
bw.write(text);
bw.flush();
bw.close();
fw.close();
}
}
提取效果:
示例3 提取PDF指定区域的文本内容
import com.spire.pdf.*;
import java.awt.geom.Rectangle2D;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromSpecificArea {
public static void main(String[] args) throws IOException {
//加载PDF文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");
//创建.txt文件,用于保存提取的文本
File file=new File("output/extractTextFromASpecificArea.txt");
if(!file.exists()){
file.delete();
}
file.createNewFile();
FileWriter fw=new FileWriter(file,true);
BufferedWriter bw=new BufferedWriter(fw);
//获取第一页
PdfPageBase page = pdf.getPages().get(0);
//提取第一页指定区域的文本
String text = page.extractText(new Rectangle2D.Float(80, 20, 500, 110));
bw.write(text);
bw.flush();
bw.close();
fw.close();
}
}
提取效果:
猜你喜欢
- 2024-10-23 从腾讯T3-3大佬手上获得的Java架构进阶PDF文档,图文并茂,真香
- 2024-10-23 数据如何转成html表格、pdf、xmind文件格式下载?
- 2024-10-23 Java 给PDF文档设置有效时间 java pdfwriter
- 2024-10-23 Spire.PDF for Java 8.9.1 增强了 PDF 到 Excel 和 PDFA3A 的转换
- 2024-10-23 Java | 调用打印机打印PDF文件 java调用打印机打印pdf文件
- 2024-10-23 「更新指南」Aspose.PDF for Java v19.5全新上线 | 附下载
- 2024-10-23 Java添加条形码到PDF表格 条形码生成api
- 2024-10-23 Java pdf下载优化:Java图片压缩 java压缩pdf文件
- 2024-10-23 Spire.PDF for Java 8.10.1 增强了 PDF 到图片的转换
- 2024-10-23 iText7实现PDF电子签章 java pdf电子签章
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)