版面分析
概述
版面分析是一种使用人工智能(AI)技术来解析和理解文档版面结构的过程。它旨在从输入的文档中提取有关文本、图像、表格、图层等内容的数据,并在此基础上实现文档版面结构还原,通常情况下我们都建议开启该选项以提升转换质量。
在 ComPDF Conversion SDK 中,版面分析常用的使用场景包括:
- 智能识别 PDF 文档中的表格:公司财报、发票、银行流水、实验数据、医院检验报告等。
- 通过版面分析智能提取 PDF 文档中的文本、图像或者表格:卡证、票据、牌照、文件、古籍等文件的分析和提取。
以下是支持版面分析的功能:
- PDF 转 Word
- PDF 转 Excel
- PDF 转 PPT
- PDF 转 HTML
- PDF 转 RTF
- PDF 转 TXT
- PDF 转 CSV
- PDF 转 Json
- PDF 转 Markdown
注意事项
- 使用版面分析功能之前需要先设置 DocumentAI 模型(参见《设置 DocumentAI 模型》),或通过《使用自定义 AI 模型回调》中的回调接入自己的版面模型。
- 当开启 OCR 功能时,版面分析会自动启用。
- AI 表格识别是一个独立的阶段,由
EnableAITableRecognition控制 —— 参见《表格识别》章节。
示例
此示例演示了如何在 PDF 文档上使用 ComPDF Conversion SDK 的 版面分析功能,将 PDF 文档转换为 Word 文档。
go
inputFilePath := "***"
password := "***"
outputFileName := "***"
wordOptions := compdf.NewWordOptions()
wordOptions.EnableAILayout = true
err := compdf.StartPDFToWord(inputFilePath, password, outputFileName, wordOptions, nil)