PDF 转换功能 API 参数指南
本章节介绍目前 ComPDFKit Processor 支持的文件处理的参数设置。针对 PDF 转 Word、Excel、PPT、HTML、RTF、PNG、JPG、CSV 格式的功能支持特殊参数设置。对于其他功能,可忽略参数设置(会使用默认参数进行文档处理)。
PDF 转 Word
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 Word:
{
"isContainAnnot": "1",
"isContainImg": "1",
"wordLayoutMode": "1",
"isAllowOcr": "0",
"isContainOcrBg": "0",
"isOnlyAiTable": "0"
}所需参数
isContainAnnot:是否包含注释(1:是,0:否)。
isContainImg:是否包含图片(1:是,0:否)。
wordLayoutMode:排版方式(1、流排模式;2、流排支持表格;3、框排模式;) 默认1。
isAllowOcr:是否允许开启 OCR(1: 是、0: 否)默认0。
isContainOcrBg:开启 OCR 后,是否保留底图(1: 是、0: 否)默认0。
isOnlyAiTable:是否允许开启 AI 表格识别(1: 是、0: 否)默认0。
PDF 转 Excel
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 Excel:
{
"contentOptions": "2",
"worksheetOptions": "1",
"isContainAnnot": "1",
"isContainImg": "1",
"isAllowOcr": "0",
"isContainOcrBg": "0",
"isOnlyAiTable": "0"
}所需参数
contentOptions: 内容提取选项(1: 仅文本、2: 仅图表、3: 所有内容)。
worksheetOptions: 创建工作表的选项(1: ForEachTable、2: ForEachPage、3: ForTheDocument)。
isContainAnnot: 是否包含注释(1:是,0:否)。
isContainImg: 是否包含图片(1:是,0:否)。
isAllowOcr:是否允许开启 OCR(1: 是、0: 否)默认0。
isContainOcrBg:开启 OCR 后,是否保留底图(1: 是、0: 否)默认0。
isOnlyAiTable:是否允许开启 AI 表格识别(1: 是、0: 否)默认0。
PDF 转 PPT
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 PPT:
{
"isContainAnnot": "1",
"isContainImg": "1",
"isAllowOcr": "0",
"isContainOcrBg": "0",
"isOnlyAiTable": "0"
}所需参数
isContainAnnot: 是否包含注释(1:是,0:否)。
isContainImg: 是否包含图片(1:是,0:否)。
isAllowOcr:是否允许开启 OCR(1: 是、0: 否)默认0。
isContainOcrBg:开启 OCR 后,是否保留底图(1: 是、0: 否)默认0。
isOnlyAiTable:是否允许开启 AI 表格识别(1: 是、0: 否)默认0。
PDF 转 HTML
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 HTML:
{
"pageOptions": "2",
"isContainAnnot": "1",
"isContainImg": "1",
"isAllowOcr": "0",
"isContainOcrBg": "0",
"isOnlyAiTable": "0"
}所需参数
pageOptions: 1: SinglePage, 2: SinglePageNavigationByBookmarks, 3: MultiplePages, 4: MultiplePagesSplitByBookmarks
isContainAnnot: 是否包含注释(1:是,0:否)。
isContainImg: 是否包含图片(1:是,0:否)。
isAllowOcr:是否允许开启 OCR(1: 是、0: 否)默认0。
isContainOcrBg:开启 OCR 后,是否保留底图(1: 是、0: 否)默认0。
isOnlyAiTable:是否允许开启 AI 表格识别(1: 是、0: 否)默认0。
PDF 转 RTF
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 RTF:
{
"isContainAnnot": "1",
"isContainImg": "1",
"isAllowOcr": "0",
"isContainOcrBg": "0"
}所需参数
isContainAnnot: 是否包含注释(1:是,0:否)。
isContainImg: 是否包含图片(1:是,0:否)。
isAllowOcr:是否允许开启 OCR(1: 是、0: 否)默认0。
isContainOcrBg:开启 OCR 后,是否保留底图(1: 是、0: 否)默认0。
PDF 转 JPG
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。 PDF 转 JPG:
{
"imgDpi": "300"
}所需参数
imgDpi:图片 DPI 值范围是72-1500(默认为300)。
PDF 转 CSV
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 CSV:
{
"isCsvMerge": "1",
"isOnlyAiTable": "0"
}所需参数
isCsvMerge: 是否合并 CSV(1: 是, 0: 否)。
- 当
isCsvMerge为 1 时,返回的文件是 .csv 格式。 - 当
isCsvMerge为 0 时,返回的文件是 .zip 格式。
isOnlyAiTable:是否允许开启 AI 表格识别(1: 是、0: 否)默认0。
PDF 转 JSON
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 JSON:
{
"type": "0",
"isAllowOcr": "0",
"extractTextMode": "0"
}所需参数
type:PDF 转 JSON 时,需要被转档的内容类别(0: PDF 中表格外的文本、1: PDF 中的所有表格以及表格中的文本、2: 提取所有内容)默认0。
isAllowOcr:是否允许开启 OCR(1: 是、0: 否)默认0。
extractTextMode:PDF 转 JSON type 为 "2" 时,需要提取的内容格式(0: 按照行提取、1: 按照段落提取)默认0。开启 OCR 之后目前无法按照段落提取
有关 JSON 文件内容字段解释祥见 PDF数据提取 JSON格式说明.pdf