版面分析
概述
版面分析是利用人工智能(AI)技术解析和理解文档版面结构的过程。其主要目标是从输入文档中提取文本、图片、表格、图层等数据。
版面分析有多个常见用例,包括:
- 智能识别 PDF 文档中的表格:该功能特别适用于分析公司财务报表、发票、银行对账单、实验数据、医疗检测报告等。
- 通过版面分析智能提取 PDF 文档中的文本、图片或表格:该功能极大地有助于对身份证、收据、执照、文档、古籍等各类文件的信息分析和提取。
支持版面分析的功能:
- PDF 转 Word
- PDF 转 Excel
- PDF 转 PowerPoint (PPT)
- PDF 转 HTML
- PDF 转 RTF
- PDF 转 TXT
- PDF 转 CSV
- 提取 PDF 为 JSON
- 提取 PDF 为 Markdown
注意事项
- DocumentAI 模型由
LibraryManager::initialize($resourcePath)自动加载。请确保包中存在resource/models/documentai.model。 - 当开启 OCR 时,版面分析会自动开启。
- AI 表格识别是一个独立的阶段,由其自身的选项控制。详见表格识别。
示例
本示例演示如何使用版面分析将 PDF 转换为 DOCX 文件。
php
$option = new ConvertOption();
// 开启版面分析选项。
$option->enableAiLayout = true;
Conversion::convert('Word', 'word.pdf', 'password', 'output.docx', $option);