Skip to content

版面分析

概述

版面分析利用 AI 技术解析并理解文档版面结构,可从输入文档中提取文本、图片、表格、图层等数据。

支持版面分析的功能包括:

  • PDF 转 Word
  • PDF 转 Excel
  • PDF 转 PowerPoint
  • PDF 转 HTML
  • PDF 转 RTF
  • PDF 转 TXT
  • PDF 转 CSV
  • 提取 PDF 为 JSON
  • 提取 PDF 为 Markdown

注意事项

  • 在使用版面分析之前,需要先加载 DocumentAI 模型,或者通过 4.11 通过回调使用自定义 AI 模型 接入您自己的 AI 引擎。
  • 开启 OCR 后,版面分析会自动启用。
  • AI 表格识别是独立阶段,由 enable_ai_table_recognition 选项单独控制。

示例

c
CPDF_SetDocumentAIModel(CPDF_TEXT("path/documentai.model"), -1);

CConvertOption option = CPDF_DefaultConvertOption();
option.enable_ai_layout = true;

CPDF_StartPDFToWord(CPDF_TEXT("word.pdf"), CPDF_TEXT("password"), CPDF_TEXT("path/output.docx"), option, NULL);