Skip to content
ComPDF

图片文件转档

若要将 图片 文件转换为 Office 或其他格式,请向/file/handle发送请求,包括作为输入的 图片 文件和文件处理参数。在开始之前,请确保 ComPDFKit Processor 已启动并正在运行。

您将向处理器的端点/file/handle发送 POST 请求。要了解有关多部分请求的更多信息,请参阅本指南的 API 接口部分。

使用本地 PDF 文件转换

/file/handle发送分段请求并附加 图片 文件:

shell
curl -f -X POST http://localhost:7000/file/handle \
-H "Content-Type: multipart/form-data" \
-F file=@"image.png" \
-F executeType="img/docx" \
-F password="file open password" \
-F parameter="{ \"contentOptions\": \"2\", \"worksheetOptions\": \"1\"}" \
> result.docx

图片 转换功能 API 参数指南

本章节介绍目前 ComPDFKit Processor 支持的图片文件转档处理的参数设置。

图片 转 Word

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 Word:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageLayoutMode": "e_Flow",
  "formulaToImage": 0,
  "ocrOption": "ALL",
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

pageLayoutMode:指定布局模式。e_Box; e_Flow。默认 e_Flow。

formulaToImage:是否将公式转换为图片(0:不启用;1:启用)。默认 0。

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。

containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。

图片 转 Excel

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 Excel:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "excelAllContent": 0,
  "excelWorksheetOption": "e_ForTable",
  "ocrOption": "ALL"
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

excelAllContent:是否转换所有内容。1: 是; 0: 否。默认 0。

excelWorksheetOption:Excel 工作表的简要选项。e_ForTable:仅包含一个表格的工作表。e_ForPage:包含 PDF 页面表格的工作表;e_ForDocument:包含 PDF 文档表格的工作表。默认为 e_ForTable

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。

图片 转 PPT

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 PPT:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "ocrOption": "ALL",
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。

containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。

图片 转 HTML

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 HTML:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "pageLayoutMode": "e_Flow",
  "htmlOption": "e_SinglePage",
  "ocrOption": "ALL",
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

pageLayoutMode:指定布局模式。e_Box; e_Flow。默认 e_Flow。

htmlOption:HTML 选项。e_SinglePage:将整个 PDF 文件转换为单个 HTML 文件。;e_SinglePageWithBookmark:将 PDF 文件转换为单个 HTML 文件,并在 HTML 页面开头提供导航大纲。;e_MultiPage:将 PDF 文件转换为多个 HTML 文件。;e_MultiPageWithBookmark:将 PDF 文件转换为多个 HTML 文件。每个 HTML 文件对应一个 PDF 页面,用户可以通过 HTML 页面底部的链接导航到下一个 HTML 文件。默认为 e_SinglePage

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。

containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。

图片 转 RTF

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 RTF:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "ocrOption": "ALL",
  "containPageBackgroundImage": 1
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。

containPageBackgroundImage:转换时是否包含页面背景图像,仅使用OCR时生效(0: 不开启;1: 开启)。默认 1。

图片 转 CSV

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 CSV:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "excelWorksheetOption": "e_ForTable",
  "ocrOption": "ALL"
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

excelWorksheetOption:Excel 工作表的简要选项。e_ForTable:仅包含一个表格的工作表。e_ForPage:包含 PDF 页面表格的工作表;e_ForDocument:包含 PDF 文档表格的工作表。默认为 e_ForTable

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。

图片 转 TXT

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 TXT:

java
{
  "enableAiLayout": 1,
  "isContainImg": 1,
  "isContainAnnot": 1,
  "enableOcr": 0,
  "ocrRecognitionLang": "AUTO",
  "txtTableFormat": 1,
  "ocrOption": "ALL"
}

所需参数

enableAiLayout:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。

isContainImg:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。

isContainAnnot:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 0。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

txtTableFormat:pdf转txt时是否格式化表格(0: 不开启;1: 开启)。默认 1。

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。

图片 转 OFD

使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。

图片 转 OFD:

java
{
  "enableOcr": 1,
  "pageRanges": "",
  "isOutputDocumentPerPage": 0,
  "ocrOption": "ALL",
  "ocrRecognitionLang": "AUTO"
}

所需参数

enableOcr:是否使用OCR(0: 不开启;1: 开启)。默认 1。

ocrRecognitionLang:OCR识别语言,支持的类型和定义:

AUTO: 自动,CHINESE: 中文简体,CHINESE_TRAD: 中文繁体,ENGLISH: 英语,KOREAN: 韩语,JAPANESE: 日语,LATIN: 拉丁语,DEVANAGARI: 梵文,CYRILLIC: 西里尔语,ARABIC: 阿拉伯语,TAMIL: 泰米尔语,TELUGU: 泰卢固语,KANNADA: 卡纳达语,THAI:泰语,GREEK:希腊语,ESLAV:eslav语系; 默认 AUTO。

pageRanges:指定页码转换,从1开始。默认 空。

isOutputDocumentPerPage:是否每页输出为一个单独的文档(0: 不开启;1: 开启)。默认 0。

ocrOption:OCR识别范围,支持的类型和定义:

INVALID_CHARACTER:识别 PDF 文档中的非法字符; SCAN_PAGE:识别 PDF 文档中的扫描页面; INVALID_CHARACTERAND_SCAN_PAGE:识别 PDF 文档中的非法字符和扫描页面; ALL:识别所有页面上的所有字符; 默认 ALL。