提取 PDF 为 JSON
概述
将 PDF 文档中的文本、表格和图片提取到 JSON 文件。
标准表格和非标准表格
通常,表格可分为两类:标准表格和非标准表格。具体定义如下:
标准表格: 表格边框和内部线条完整清晰,无需手动添加表格线来划分表格内容。
非标准表格: 缺少边框或清晰内部线条的表格,需要手动添加表格线来分隔内容。
表格提取选项
ComPDF Conversion SDK 支持 jsonContainTable 选项。开启后,将从 PDF 中提取表格内容并输出表格结构;否则,表格内容将被视为普通文本。
注意事项
- 不开启 AI 版面分析或 OCR 选项时,无法提取原始 PDF 中的表格。建议开启 AI 版面分析或 OCR 以实现高精度表格识别。
示例
完整示例代码,演示文本提取能力。
php
$option = new ConvertOption();
$option->enableAiLayout = true;
$option->jsonContainTable = true;
// 提取 PDF 为 JSON。
Conversion::convert('Json', 'json.pdf', 'password', 'output.json', $option);