Skip to content
DemoFAQ

版面分析

概述

版面分析是利用人工智能(AI)技术解析和理解文档版面结构的过程。其主要目标是从输入文档中提取文本、图片、表格、图层等数据。

版面分析有多个常见用例,包括:

  • 智能识别 PDF 文档中的表格:该功能特别适用于分析公司财务报表、发票、银行对账单、实验数据、医疗检测报告等。
  • 通过版面分析智能提取 PDF 文档中的文本、图片或表格:该功能极大地有助于对身份证、收据、执照、文档、古籍等各类文件的信息分析和提取。

支持版面分析的功能:

  • PDF 转 Word
  • PDF 转 Excel
  • PDF 转 PowerPoint (PPT)
  • PDF 转 HTML
  • PDF 转 RTF
  • PDF 转 TXT
  • PDF 转 CSV
  • 提取 PDF 为 JSON
  • 提取 PDF 为 Markdown

注意事项

  • DocumentAI 模型由 LibraryManager::initialize($resourcePath) 自动加载。请确保包中存在 resource/models/documentai.model
  • 当开启 OCR 时,版面分析会自动开启。
  • AI 表格识别是一个独立的阶段,由其自身的选项控制。详见表格识别

示例

本示例演示如何使用版面分析将 PDF 转换为 DOCX 文件。

php
$option = new ConvertOption();
// 开启版面分析选项。
$option->enableAiLayout = true;

Conversion::convert('Word', 'word.pdf', 'password', 'output.docx', $option);