PDF 文件转档

若要将 PDF 文件转换为 Office 或其他格式，请向/file/handle发送请求，包括作为输入的 PDF 文件和文件处理参数。在开始之前，请确保 ComPDFKit Processor 已启动并正在运行。

您将向处理器的端点/file/handle发送 POST 请求。要了解有关多部分请求的更多信息，请参阅 API 参考指南。

使用本地 PDF 文件转换

向/file/handle发送分段请求并附加 PDF 文件：

shell

curl -f -X POST http://localhost:7000/file/handle \
-H "Content-Type: multipart/form-data" \
-F file=@"document.pdf" \
-F executeType="pdf/docx" \
-F password="file open password" \
-F parameter="{ \"contentOptions\": \"2\", \"worksheetOptions\": \"1\"}" \
> result.docx

PDF 转换功能 API 参数指南

本章节介绍目前 ComPDFKit Processor 支持的PDF文件转档处理的参数设置。

PDF 转 Word

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 Word：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "pageLayoutMode": "e_Flow",
  "formulaToImage": 0,
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0,
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

AUTO: 自动，CHINESE: 中文简体，CHINESE_TRAD: 中文繁体，ENGLISH: 英语，KOREAN: 韩语，JAPANESE: 日语，LATIN: 拉丁语，DEVANAGARI: 梵文，CYRILLIC: 西里尔语，ARABIC: 阿拉伯语，TAMIL: 泰米尔语，TELUGU: 泰卢固语，KANNADA: 卡纳达语，THAI：泰语，GREEK：希腊语，ESLAV：eslav语系；默认 AUTO。

pageRanges：指定页码转换，从1开始。默认空。

pageLayoutMode：指定布局模式。e_Box：适用于PDF页面流排; e_Flow：适用于PDF框排。默认 e_Flow。

排版差异说明：

Word 的流式布局非常适合编辑，内容会随着您的编辑动态调整到不同的位置。然而，由于不同软件或应用程序版本的不兼容，Word 文件的显示会有所不同。这使得它不适合电子文件或证书等精密文档。

PDF 的固定页面布局：确保在所有设备上呈现稳定、统一的外观和打印质量。内容和格式在创建时即被锁定，因此修改起来非常困难，而且不会影响整体布局。它非常适合用于商业报告和官方电子记录等正式文档。

formulaToImage：是否将公式转换为图片（0：不启用；1：启用）。默认 0，开了保存为图片，不开保存为文本，复杂公式建议保存为图片。

ocrOption：OCR识别范围，支持的类型和定义：

INVALID_CHARACTER：识别 PDF 文档中的非法字符； SCAN_PAGE：识别 PDF 文档中的扫描页面； INVALID_CHARACTERAND_SCAN_PAGE：识别 PDF 文档中的非法字符和扫描页面； ALL：识别所有页面上的所有字符；默认 ALL。

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

containPageBackgroundImage：转换时是否包含页面背景图像，仅使用OCR时生效(0: 不开启；1: 开启)。默认 1。

PDF 转 Excel

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 Excel：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "excelAllContent": 0,
  "excelWorksheetOption": "e_ForTable",
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

excelAllContent：是否转换所有内容。1: 是; 0: 否。默认 0。

excelWorksheetOption：Excel 工作表的简要选项。e_ForTable：仅包含一个表格的工作表。e_ForPage：包含 PDF 页面表格的工作表；e_ForDocument：包含 PDF 文档表格的工作表。默认为 e_ForTable。

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

PDF 转 PPT

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 PPT：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0,
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

containPageBackgroundImage：转换时是否包含页面背景图像，仅使用OCR时生效(0: 不开启；1: 开启)。默认 1。

PDF 转 HTML

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 HTML：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "pageLayoutMode": "e_Flow",
  "htmlOption": "e_SinglePage",
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0,
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

pageLayoutMode：指定布局模式。e_Box; e_Flow。默认 e_Flow。

htmlOption：HTML 选项。e_SinglePage：将整个 PDF 文件转换为单个 HTML 文件。；e_SinglePageWithBookmark：将 PDF 文件转换为单个 HTML 文件，并在 HTML 页面开头提供导航大纲。；e_MultiPage：将 PDF 文件转换为多个 HTML 文件。；e_MultiPageWithBookmark：将 PDF 文件转换为多个 HTML 文件。每个 HTML 文件对应一个 PDF 页面，用户可以通过 HTML 页面底部的链接导航到下一个 HTML 文件。默认为 e_SinglePage。

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

containPageBackgroundImage：转换时是否包含页面背景图像，仅使用OCR时生效(0: 不开启；1: 开启)。默认 1。

PDF 转 RTF

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 RTF：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0,
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

containPageBackgroundImage：转换时是否包含页面背景图像，仅使用OCR时生效(0: 不开启；1: 开启)。默认 1。

PDF 转 Image

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转图片：

java

{
  "imageFormat": "JPG",
  "pageRanges": "",
  "imageColorMode": "e_Color",
  "imageScaling": "1.0"
}

所需参数

imageFormat：图片格式，支持：JPG、JPEG、JPEG2000、PNG、BMP、TIFF、TGA、GIF、WEBP。默认 JPG。

pageRanges：指定页码转换，从1开始。默认空。

imageColorMode：指定图像文件的图像颜色模式。e_Color; e_Gray; e_Binary;。默认 e_Color。

imageScaling：指定图像文件的图像缩放比例。默认 1.0。

PDF 转 CSV

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 CSV：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "excelWorksheetOption": "e_ForTable",
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

PDF 转 JSON

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 JSON：

java

{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "resolveType": "EXTRACT",
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

isContainAnnot：转换时是否包含注释(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

resolveType：提取JSON内容类型。 TEXT; TABLE; EXTRACT; IMAGE。默认 EXTRACT（提取全部）。

有关 JSON 文件内容字段解释祥见 PDF数据提取 JSON格式说明.pdf

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

PDF 转 TXT

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 TXT：

java

{
  "enableAiLayout": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "txtTableFormat": 1,
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0
}

所需参数

enableAiLayout：是否开启AI版面分析(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 0。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

txtTableFormat：pdf转txt时是否格式化表格(0: 不开启；1: 开启)。默认 1。

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

PDF 转可编辑PDF

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转可编辑PDF：

java

{
  "isContainImg": 1,
  "enableOcr": 1,
  "ocrRecognitionLang": "AUTO",
  "pageRanges": "",
  "ocrOption": "ALL",
  "isOutputDocumentPerPage": 0,
  "containPageBackgroundImage": 1,
  "transparentText": 1
}

所需参数

isContainImg：转换时是否包含图像(0: 不开启；1: 开启)。默认 1。

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 1。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

ocrOption：OCR识别范围，支持的类型和定义：

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

containPageBackgroundImage：转换时是否包含页面背景图像，仅使用OCR时生效(0: 不开启；1: 开启)。默认 1。

transparentText：是否使用透明文本(0: 不开启；1: 开启)。默认 1。

PDF 转 OFD

注：使用不同功能时可以在上传文件时使用它们各自特别的参数，其他步骤是一致的。

PDF 转 OFD：

java

{
  "enableOcr": 1,
  "pageRanges": "",
  "isOutputDocumentPerPage": 0,
  "ocrOption": "ALL",
  "ocrRecognitionLang": "AUTO"
}

所需参数

enableOcr：是否使用OCR(0: 不开启；1: 开启)。默认 1。

ocrRecognitionLang：OCR识别语言，支持的类型和定义：

pageRanges：指定页码转换，从1开始。默认空。

isOutputDocumentPerPage：是否每页输出为一个单独的文档(0: 不开启；1: 开启)。默认 0。

ocrOption：OCR识别范围，支持的类型和定义：

PDF 文件转档 ​

PDF 转换功能 API 参数指南 ​

PDF 转 Word ​

PDF 转 Excel ​

PDF 转 PPT ​

PDF 转 HTML ​

PDF 转 RTF ​

PDF 转 Image ​

PDF 转 CSV ​

PDF 转 JSON ​

PDF 转 TXT ​

PDF 转 可编辑PDF ​

PDF 转 OFD ​

PDF 文件转档

PDF 转换功能 API 参数指南

PDF 转 Word

PDF 转 Excel

PDF 转 PPT

PDF 转 HTML

PDF 转 RTF

PDF 转 Image

PDF 转 CSV

PDF 转 JSON

PDF 转 TXT

PDF 转可编辑PDF

PDF 转 OFD