提取 PDF 为 JSON
概述
将 PDF 文档中的文本、表格和图片提取为 JSON 文件。
标准表格与非标准表格
常见表格通常可分为两类:
- 标准表格:表格边框和内部线条完整清晰,无需手动补充表格线来分隔内容。

- 非标准表格:表格缺少边框或内部线条不清晰,需要手动补充表格线来分隔内容。

表格提取选项
ComPDF Conversion SDK 支持 json_contain_table 选项。开启后会提取 PDF 中的表格内容并输出表格结构;否则表格内容会被当作普通文本处理。
注意事项
- 如果未启用 AI 版面分析或 OCR,原始 PDF 中的表格可能无法被提取。建议开启 AI 版面分析或 OCR,以获得更高精度的表格识别效果。
示例
c
CConvertOption option = CPDF_DefaultConvertOption();
option.json_contain_table = true;
CPDF_StartPDFToJson(CPDF_TEXT("json.pdf"), CPDF_TEXT("password"), CPDF_TEXT("path/output.json"), option, NULL);