PDF 转换功能 API 参数指南
本章节介绍目前 ComPDFKit Processor 支持的PDF文件转档处理的参数设置。
PDF 转 Word
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 Word:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"pageLayoutMode": "e_Flow",
"formulaToImage": 1,
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0,
"containPageBackgroundImage": 1
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
pageLayoutMode:指定布局模式。e_Box:适用于PDF页面流排; e_Flow:适用于PDF框排。默认 e_Flow。
排版差异说明:
Word 的流式布局非常适合编辑,内容会随着您的编辑动态调整到不同的位置。然而,由于不同软件或应用程序版本的不兼容,Word 文件的显示会有所不同。这使得它不适合电子文件或证书等精密文档。
PDF 的固定页面布局:确保在所有设备上呈现稳定、统一的外观和打印质量。内容和格式在创建时即被锁定,因此修改起来非常困难,而且不会影响整体布局。它非常适合用于商业报告和官方电子记录等正式文档。
formulaToImage:是否将公式转换为图片(0:不启用;1:启用)。默认 0,开了保存为图片,不开保存为文本,复杂公式建议保存为图片。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。
PDF 转 Excel
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 Excel:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"excelAllContent": 1,
"excelWorksheetOption": "e_ForTable",
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
excelAllContent:是否转换所有内容。1: 是; 0: 否。默认 1。
excelWorksheetOption:Excel 工作表的简要选项。e_ForTable:仅包含一个表格的工作表。e_ForPage:包含 PDF 页面表格的工作表;e_ForDocument:包含 PDF 文档表格的工作表。默认为 e_ForTable。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
PDF 转 PPT
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 PPT:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0,
"containPageBackgroundImage": 1
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。
PDF 转 HTML
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 HTML:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"pageLayoutMode": "e_Flow",
"htmlOption": "e_SinglePage",
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0,
"containPageBackgroundImage": 1
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
pageLayoutMode:指定布局模式。e_Box; e_Flow。默认 e_Flow。
htmlOption:HTML 选项。e_SinglePage:将整个 PDF 文件转换为单个 HTML 文件。;e_SinglePageWithBookmark:将 PDF 文件转换为单个 HTML 文件,并在 HTML 页面开头提供导航大纲。;e_MultiPage:将 PDF 文件转换为多个 HTML 文件。;e_MultiPageWithBookmark:将 PDF 文件转换为多个 HTML 文件。每个 HTML 文件对应一个 PDF 页面,用户可以通过 HTML 页面底部的链接导航到下一个 HTML 文件。默认为 e_SinglePage。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。
PDF 转 RTF
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 RTF:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0,
"containPageBackgroundImage": 1
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。
PDF 转 Image
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 图片:
{
"imageFormat": "JPG",
"pageRanges": "1,2,3-5",
"imageColorMode": "e_Color",
"imageScaling": "1.0"
}所需参数
imageFormat:图片格式,支持:JPG、JPEG、JPEG2000、PNG、BMP、TIFF、TGA、GIF、WEBP。默认 JPG。
pageRanges:指定页码转换,从1开始。默认 空。
imageColorMode:指定图像文件的图像颜色模式。e_Color; e_Gray; e_Binary;。默认 e_Color。
imageScaling:指定图像文件的图像缩放比例。默认 1.0。
PDF 转 CSV
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 CSV:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"excelWorksheetOption": "e_ForTable",
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
excelWorksheetOption:Excel 工作表的简要选项。e_ForTable:仅包含一个表格的工作表。e_ForPage:包含 PDF 页面表格的工作表;e_ForDocument:包含 PDF 文档表格的工作表。默认为 e_ForTable。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
PDF 转 JSON
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 JSON:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"resolveType": "EXTRACT",
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
resolveType:提取JSON内容类型。 TEXT; TABLE; EXTRACT; IMAGE。默认 EXTRACT(提取全部)。
有关 JSON 文件内容字段解释祥见 PDF数据提取 JSON格式说明.pdf
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
PDF 转 TXT
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 TXT:
{
"enableAiLayout": 1,
"enableOcr": 0,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"txtTableFormat": 1,
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
txtTableFormat:pdf转txt时是否格式化表格(0: 不开启;1: 开启)。默认 1。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
PDF 转 可编辑PDF
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 可编辑PDF:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 1,
"ocrRecognitionLang": "AUTO",
"pageRanges": "1,2,3-5",
"ocrOption": "ALL",
"isOutputDocumentPerPage": 0,
"containPageBackgroundImage": 1
}所需参数
enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 1。
ocrRecognitionLang:OCR识别语言,支持的类型和定义:
AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。
pageRanges:指定页码转换,从1开始。默认 空。
ocrOption:OCR识别范围,支持的类型和定义:
INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。
isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。
containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。