Skip to content
Guides

数据提取指南

ComPDFKit Conversion SDK 的数据提取功能支持识别、分析、提取 PDF 文档中的文本、图片、表格等数据。

提取 PDF 为 Json

概述

从 PDF 文档中提取文本、图片和表格数据为 Json 文件。

表格类型:标准表格 & 非标准表格

常见的表格类型可以分为标准表格与非标准表格两类,具体定义如下:

  • 标准表格:表格边框完整,表格内线完整且清晰,无需人为再添加表格线条做表格内容分割。1
  • 非标准表格:缺少表格边框或者表格内线,表格线条不清晰,需要人为添加表格线条分割表格内容。2

设置是否提取表格

在 ComPDFKit Conversion SDK 中,支持是否提取表格选项ContainTable,开启该选项时会提取 PDF 中的表格内容并输出对应的表格结构,否则表格内的内容会被当成普通段落。

注意事项

  • 当未开启 AI 版面分析 或者 OCR 选项时无法提取原 PDF 文档中的表格,建议开启 AI 版面分析 或者 OCR 选项进行提取,以支持高精度的表格识别。

示例

以下是完整的示例代码,演示了提取 PDF 为 Json 功能。

c#
string inputFilePath = "***";
string password = "***";
string outputFileName = "***";

JsonOptions jsonOptions = new JsonOptions();
ErrorCode error = CPDFConversion.StartPDFToJson(inputFilePath, password, outputFileName, jsonOptions);