Skip to content

提取 PDF 为 JSON

概述

将 PDF 文档中的文本、表格和图片提取为 JSON 文件。

标准表格与非标准表格

常见表格通常可分为两类:

  • 标准表格:表格边框和内部线条完整清晰,无需手动补充表格线来分隔内容。 标准表格示例
  • 非标准表格:表格缺少边框或内部线条不清晰,需要手动补充表格线来分隔内容。 非标准表格示例

表格提取选项

ComPDF Conversion SDK 支持 json_contain_table 选项。开启后会提取 PDF 中的表格内容并输出表格结构;否则表格内容会被当作普通文本处理。

注意事项

  • 如果未启用 AI 版面分析或 OCR,原始 PDF 中的表格可能无法被提取。建议开启 AI 版面分析或 OCR,以获得更高精度的表格识别效果。

示例

c
CConvertOption option = CPDF_DefaultConvertOption();
option.json_contain_table = true;

CPDF_StartPDFToJson(CPDF_TEXT("json.pdf"), CPDF_TEXT("password"), CPDF_TEXT("path/output.json"), option, NULL);