Skip to content

版面分析

概述

版面分析是一种使用人工智能(AI)技术来解析和理解文档版面结构的过程。它旨在从输入的文档中提取有关文本、图像、表格、图层等内容的数据。

在 ComPDFKit Conversion SDK 中,版面分析常用的使用场景包括:

  • 智能识别 PDF 文档中的表格:公司财报、发票、银行流水、实验数据、医院检验报告等。
  • 通过版面分析智能提取 PDF 文档中的文本、图像或者表格:卡证、票据、牌照、文件、古籍等文件的分析和提取。

以下是支持版面分析的功能:

  • PDF 转 Word
  • PDF 转 Excel
  • PDF 转 PPT
  • PDF 转 HTML
  • PDF 提取表格

注意事项

  • 使用版面分析功能之前需要先集成 OCR 库。
  • 当开启 OCR 功能时,版面分析会自动启用。

示例

此示例演示了如何在 PDF 文档上使用 ComPDFKit Conversion SDK 的 版面分析功能,将 PDF 文档转换为 Word 文档。

objective-c
// 获取 PDF 文件的路径。
NSString *pdfPath = @"...";
// 获取 Word 文件的路径。
NSString *outputPath = @"...";
CPDFConvertWordOptions *options = [[CPDFConvertWordOptions alloc] init];
// 转换时是否包含图像,只有当 IsAllowOCR 为 false 时才会生效。
[options setIsContainImages:YES];
// 设置是否包含背景图片,只有当 IsAllowOCR 为 true 时才会生效。
[options setIsContainOCRBgImage:YES];
// 转档时是否包含注释。
[options setIsContainAnnotations:YES];
// PDF 转 Word 的参数对象(CPDFConvertOptions 的派生类)布局选项:CPDFConvertRetainPageLayout(该布局选项可根据布局将文本拆分为多个文本框,以保持与原始文件相同的布局)。
[options setLayoutOptions:CPDFConvertRetainPageLayout];
// 开启版面分析。
[options setIsAILayoutAnalysis:YES];
CPDFConverterWord *converter = [[CPDFConverterWord alloc] initWithURL:[NSURL fileURLWithPath:pdfPath] password:nil];
[converter convertToFilePath:outputPath pageIndexs:nil options:options];