Skip to content

数据提取指南

ComPDFKit Conversion SDK 的数据提取功能支持识别、分析、提取 PDF 文档中的文本、文本结构、表格等数据。

注: 文件数据提取为 JSON 格式时,暂不支持选择页面范围。默认提取全部页面,并且提取过程一旦开始,不支持取消。

PDF 文本提取

概述

即从 PDF 文档中提取文本数据。

注意事项

  • 当未开启 OCR 功能时可能会导致图片中的表格内的文本未被提取出来。
  • 当我们从 PDF 文档中读取文本内容时,我们经常会遇到部分数据。例如,假设我们正在尝试从 PDF 文档中提取一个句子,上面写着 “这是一个示例句子”。我们最终可能会得到两个文本内容:“这” 和 “是一个示例句子”。这是可能的,因为在 PDF 文档中,文本对象并不总是整齐地组织成单词、句子或段落。未开启 OCR 识别时,convert返回与 PDF 页面中的文本内容完全相同的对象。

示例

以下是完整的示例代码,演示了基本的文本提取功能。

java
        CPDFConvert cpdfConvertJson = new CPDFConvertJson();
        CPDFConvertJsonOptions cpdfConvertJsonOptions = new CPDFConvertJsonOptions();
        cpdfConvertJsonOptions.setAllowOcr(true);
        cpdfConvertJsonOptions.setContainOcrBg(true);
        cpdfConvertJsonOptions.setOnlyAiTable(true);
        cpdfConvertJsonOptions.setPdtToJsonEnum(PDFToJsonEnum.TEXT);
        convert = cpdfConvertJson.convert(file.getPath(), null, num + "" + time, cpdfConvertJsonOptions, null, dto.getPassword(), null);