Skip to content
DemoFAQ

提取 PDF 为 JSON

概述

将 PDF 文档中的文本、表格和图片提取到 JSON 文件。

标准表格和非标准表格

通常,表格可分为两类:标准表格和非标准表格。具体定义如下:

  • 标准表格: 表格边框和内部线条完整清晰,无需手动添加表格线来划分表格内容。

  • 非标准表格: 缺少边框或清晰内部线条的表格,需要手动添加表格线来分隔内容。

表格提取选项

ComPDF Conversion SDK 支持 jsonContainTable 选项。开启后,将从 PDF 中提取表格内容并输出表格结构;否则,表格内容将被视为普通文本。

注意事项

  • 不开启 AI 版面分析或 OCR 选项时,无法提取原始 PDF 中的表格。建议开启 AI 版面分析或 OCR 以实现高精度表格识别。

示例

完整示例代码,演示文本提取能力。

php
$option = new ConvertOption();
$option->enableAiLayout = true;
$option->jsonContainTable = true;
// 提取 PDF 为 JSON。
Conversion::convert('Json', 'json.pdf', 'password', 'output.json', $option);