PDF 文件转档
若要将 PDF 文件转换为 Office 或其他格式,请向/file/handle
发送请求,包括作为输入的 PDF 文件和文件处理参数。在开始之前,请确保 ComPDFKit Processor 已启动并正在运行。
您将向处理器的端点/file/handle
发送 POST 请求。要了解有关多部分请求的更多信息,请参阅 API 参考指南。
使用本地 PDF 文件转换
向/file/handle
发送分段请求并附加 PDF 文件:
curl -f -X POST http://localhost:7000/file/handle \
-H "Content-Type: multipart/form-data" \
-F file=@"document.pdf" \
-F executeType="pdf/docx" \
-F password="file open password" \
-F parameter="{ \"contentOptions\": \"2\", \"worksheetOptions\": \"1\"}" \
> result.docx
PDF 转换功能 API 参数指南
本章节介绍目前 ComPDFKit Processor 支持的文件处理的参数设置。针对 PDF 转 Word、Excel、PPT、HTML、RTF、PNG、JPG、CSV 格式的功能支持特殊参数设置。对于其他功能,可忽略参数设置(会使用默认参数进行文档处理)。
PDF 转 Word
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 Word:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5",
"pageLayoutMode": "e_Flow",
"formulaToImage": 0
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
pageLayoutMode
:指定布局模式。e_Box; e_Flow。默认 e_Flow。
formulaToImage
:是否将公式转换为图片(0:不启用;1:启用)。默认 0。
PDF 转 Excel
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 Excel:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5",
"excelAllContent": 1,
"excelWorksheetOption": "e_ForTable"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
excelAllContent
:是否转换所有内容。1: 是; 0: 否。默认 1。
excelWorksheetOption
:Excel 工作表的简要选项。e_ForTable
:仅包含一个表格的工作表。e_ForPage
:包含 PDF 页面表格的工作表;e_ForDocument
:包含 PDF 文档表格的工作表。默认为 e_ForTable
。
PDF 转 PPT
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 PPT:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
PDF 转 HTML
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 HTML:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5",
"pageLayoutMode": "e_Flow",
"htmlOption": "e_SinglePage"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
pageLayoutMode
:指定布局模式。e_Box; e_Flow。默认 e_Flow。
htmlOption
:HTML 选项。e_SinglePage
:将整个 PDF 文件转换为单个 HTML 文件。;e_SinglePageWithBookmark
:将 PDF 文件转换为单个 HTML 文件,并在 HTML 页面开头提供导航大纲。;e_MultiPage
:将 PDF 文件转换为多个 HTML 文件。;e_MultiPageWithBookmark
:将 PDF 文件转换为多个 HTML 文件。每个 HTML 文件对应一个 PDF 页面,用户可以通过 HTML 页面底部的链接导航到下一个 HTML 文件。默认为 e_SinglePage
。
PDF 转 RTF
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 RTF:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
PDF 转 Image
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 图片:
{
"pageRanges": "1,2,3-5",
"imageColorMode": "e_Color",
"imageScaling": "1.0"
}
所需参数
pageRanges
:指定页码转换,从1开始。默认 空。
imageColorMode
:指定图像文件的图像颜色模式。e_Color; e_Gray; e_Binary;。默认 e_Color。
imageScaling
:指定图像文件的图像缩放比例。默认 1.0。
PDF 转 CSV
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 CSV:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5",
"excelWorksheetOption": "e_ForTable"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
excelWorksheetOption
:Excel 工作表的简要选项。e_ForTable
:仅包含一个表格的工作表。e_ForPage
:包含 PDF 页面表格的工作表;e_ForDocument
:包含 PDF 文档表格的工作表。默认为 e_ForTable
。
PDF 转 JSON
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 JSON:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5",
"resolveType": "EXTRACT"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
resolveType
:提取JSON内容类型。 TEXT; TABLE; EXTRACT; IMAGE。默认 EXTRACT(提取全部)。
有关 JSON 文件内容字段解释祥见 PDF数据提取 JSON格式说明.pdf
PDF 转 TXT
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 TXT:
{
"enableAiLayout": 1,
"enableOcr": 0,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5",
"txtTableFormat": 1
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 0。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。
txtTableFormat
:pdf转txt时是否格式化表格(0: 不开启;1: 开启)。默认 1。
PDF 转 可编辑PDF
注:使用不同功能时可以在上传文件时使用它们各自特别的参数,其他步骤是一致的。
PDF 转 可编辑PDF:
{
"enableAiLayout": 1,
"isContainImg": 1,
"isContainAnnot": 1,
"enableOcr": 1,
"ocrLanguage": 8,
"pageRanges": "1,2,3-5"
}
所需参数
enableAiLayout
:是否开启AI版面分析(0: 不开启;1: 开启)。默认 1。
isContainImg
:转换时是否包含图像(0: 不开启;1: 开启)。默认 1。
isContainAnnot
:转换时是否包含注释(0: 不开启;1: 开启)。默认 1。
enableOcr
:是否使用OCR(0: 不开启;1: 开启)。默认 1。
ocrLanguage
:OCR识别语种。1:CHINESE; 2:CHINESE_TRA; 3:ENGLISH; 4:KOREAN; 5:JAPANESE; 6:LATIN; 7:DEVANAGARI; 8:AUTO。默认 8。
pageRanges
:指定页码转换,从1开始。默认 空。