包含图片和注释选项
概述
在将 PDF 文档转换为各种格式的过程中,ComPDF Conversion SDK 提供了两个额外选项:一个用于决定生成的文档是否包含图片,另一个用于决定是否保留 PDF 文件中的注释。
开启"包含图片"选项后,ComPDF Conversion SDK 会从 PDF 文档中提取图片,并将其嵌入到输出文件中对应的页面和位置。对于重叠的图片区域,ComPDF Conversion SDK 会将这些图片合并为一张,并嵌入到输出文件对应页面的精确位置。
选择"包含注释"选项后,大多数注释会被转换为光栅图像并嵌入到文档中对应的位置。不过,某些类型的注释(如高亮、下划线、删除线和波浪线)会被转换为 Word、PPT 和 HTML 文档中相应的格式,并标记在对应的文本上。需要注意的是,转换并非在所有情况下都能 100% 准确。
在 ComPDF Conversion SDK 中,包含图片和注释选项常用于以下格式转换:
- PDF 转 Word
- PDF 转 Excel
- PDF 转 PowerPoint
- PDF 转 HTML
- PDF 转 RTF
- 提取 PDF 为 JSON
- 提取 PDF 为 Markdown
关于文本标记注释
高亮: 在保留高亮标记将 PDF 转换为 Word 格式时,请注意 Microsoft Word 仅支持 15 种荧光笔颜色。为尽可能近似原始文档的外观,Word 文档中的文本会使用与原文档高亮注释颜色一致的文本背景色进行标记。转换为 Microsoft PPT 格式时,使用格式内原生的高亮功能来标记文本。转换为 HTML 格式时,会为被标记的文本创建一个唯一的
<span>标签,并将背景样式设置为与原文档中相应注释一致的颜色。下划线和波浪线: 在保留下划线和波浪线标记将 PDF 转换为 Word 或 PPT 格式时,被标记的文本会在 Microsoft Office 中以相同的样式标记。转换为 HTML 格式时,被标记的文本会设置样式以显示相同的效果。但是,如果原文档中一段文本同时被下划线和波浪线标记,则文本只会以一种类型标记(因为波浪线在 Word、PPT 和 HTML 格式中实际上是下划线的一种)。
删除线: 在将删除线标记转换为 Word 和 PowerPoint 格式时,被标记的文本会添加 Microsoft Office 原生支持的删除线。但是,在这两种文件格式中,删除线本身的颜色无法与原始 PDF 文档中的颜色一致,因为 Word 和 PPT 中的删除线颜色只会随被标记文本字体本身的颜色而变化。转换为 HTML 格式时,将显示与原文档相同的删除线颜色。
示例
本示例演示如何使用 ComPDF Conversion SDK 将 PDF 文档转换为 Word 文档,并选择"包含图片和注释"选项。
$option = new ConvertOption();
// 设置包含图片和包含注释。
$option->containImage = true;
$option->containAnnotation = true;
Conversion::convert('Word', 'input.pdf', '', 'output.docx', $option);