版面分析
概述
版面分析利用 AI 技术解析并理解文档版面结构,可从输入文档中提取文本、图片、表格、图层等数据。
支持版面分析的功能包括:
- PDF 转 Word
- PDF 转 Excel
- PDF 转 PowerPoint
- PDF 转 HTML
- PDF 转 RTF
- PDF 转 TXT
- PDF 转 CSV
- 提取 PDF 为 JSON
- 提取 PDF 为 Markdown
注意事项
- 在使用版面分析之前,需要先加载 DocumentAI 模型,或者通过 4.11 通过回调使用自定义 AI 模型 接入您自己的 AI 引擎。
- 开启 OCR 后,版面分析会自动启用。
- AI 表格识别是独立阶段,由
enable_ai_table_recognition选项单独控制。
示例
c
CPDF_SetDocumentAIModel(CPDF_TEXT("path/documentai.model"), -1);
CConvertOption option = CPDF_DefaultConvertOption();
option.enable_ai_layout = true;
CPDF_StartPDFToWord(CPDF_TEXT("word.pdf"), CPDF_TEXT("password"), CPDF_TEXT("path/output.docx"), option, NULL);