Skip to content
Guides

智能文档提取

关键字段提取 - 同步

从文档中提取关键信息字段和表格信息。支持的文件格式:PDF、JPG、JPEG、PNG。


请求方式:

  • 请求方法:POST。

  • 参数传递方式:Body(form-data)。

请求地址:

https://localhost:7000/idp/intelligent-document-extraction

请求参数:

参数名数据类型描述是否必填
file文件源文档。
keysarray[string]关键信息字段。
tableHandlesarray[string]表头字段。
pagesarray[int]指定需要提取的页码。

keystableHandles 都未提供时,将提取文件中的所有关键信息。

JSON 返回说明

返回参数数据类型描述
codeString错误码,"200" 表示成功
messageString错误信息
dataObject返回结果
+detailsObject关键信息提取结果
++Page-indexObject对应页码提取结果
+++keyString键值对形式的关键信息提取结果
+++tablesArray表格提取结果,格式为 tables:[ [table1], [table2] ]

JSON 示例结构:

json
{
    "code": "200",
    "msg": "success",
    "data": {
        "details": {
            "Page-1": {
                "Order Date": "xxx",
                "Order #": "xxx",
                "Quote#": "xxx",
                "Your estimated delivery date is": "xxx",
                "tables": null
            }
        }
    }
}

关键字段提取 - 异步

以异步方式从文档中提取关键信息字段和表格信息。支持的文件格式:PDF、JPG、JPEG、PNG。

上传并提交文件

上传需要处理的文件并获取 fileId

请求方式:

  • 请求方法:POST。

  • 参数传递方式:Body(form-data)。

请求地址:

https://localhost:7000/idp/async/intelligent-document-extraction

请求参数:

参数名数据类型描述是否必填
file文件源文档。
keysarray[string]关键信息字段。
tableHandlesarray[string]表头字段。
pagesarray[int]指定提取页码。

keystableHandles 均未提供时,默认提取文件中的所有关键信息。

JSON 返回说明

返回参数数据类型描述
codeString错误码,"200" 表示成功
messageString错误信息
dataObject返回结果
+fileIdString文件标识 ID

JSON 示例结构:

json
{
    "code": "200",
    "msg": "success",
    "data": {
        "fileId": "62132012acb86cf41ec9f6273f4026e8"
    }
}

获取处理结果

根据 fileId 获取文件处理结果。

当返回的 code 或 HTTP 状态码为 202 时,说明文件仍在处理中,请稍后再次调用该接口获取处理结果。

请求方式:

  • 请求方法:POST。
  • 参数传递方式:Body(form-data)。

请求地址:

https://localhost:7000/idp/get-file-data-extract-result

请求参数:

参数名数据类型描述是否必填
fileIdString文件 ID

JSON 返回说明

返回参数数据类型描述
codeString错误码,"200" 表示成功
messageString错误信息
dataObject返回结果
+detailsObject关键信息提取结果
++Page-indexObject对应页码提取结果
+++keyString键值对形式的关键信息提取结果
+++tablesArray表格提取结果,格式为 tables:[ [table1], [table2] ]

JSON 示例结构:

json
{
    "code": "200",
    "msg": "success",
    "data": {
        "details": {
            "Page-1": {
                "Order Date": "xxx",
                "Order #": "xxx",
                "Quote#": "xxx",
                "Your estimated delivery date is": "xxx",
                "tables": null
            }
        }
    }
}

错误码说明

返回结构:

返回参数数据类型描述
codeString错误码
msgString错误描述

返回示例:

java
{
  "code": "08005",
  "msg": "关键信息提取失败。"
}

错误码参考:

错误码描述解决方案
'01001'系统内部异常。请联系 [email protected]
'01003'文件上传出错。请联系 [email protected]
'03000'参数校验异常。请检查文件处理参数,参考 API 接口 部分。
'02321'PDF 文件不存在。请联系 [email protected]
'02002'文件大小为 0。请检查文件是否成功上传。
'02004'文件处理失败。请重试或联系 [email protected]
'02006'文件返回错误。请检查返回文件是否正常接收或联系 [email protected]
'01004'文件上传异常。请联系 [email protected]
'01005'文件不能为空。请检查上传文件是否成功。
'01203'找不到文件或无法打开文件。请联系 [email protected]
'02002'不支持此格式的文件转换。请联系 [email protected]
'02207'文件打开失败:不支持的类型或加密文件。请检查文件是否有密码保护,并传入正确的密码参数。
'04003'文件不存在或无法打开。请联系 [email protected]
'07001'当前功能不支持。请联系 [email protected]
'08100'License 无效。请联系 [email protected] 获取正确的 LicenseKey。
'08101'License 已过期。请联系 [email protected] 获取正确的 LicenseKey。
'08102'License 不支持当前平台。请联系 [email protected] 获取正确的 LicenseKey。
'08105'License 没有该功能权限。请联系 [email protected] 获取正确的 LicenseKey。
'01006'文件参数异常,请设置正确的文件参数。请检查文件参数是否正确。
'08002'执行器不存在或无法使用。请检查执行器是否正常运行。
'08005'关键信息提取失败。请联系 [email protected]

状态码说明:

ComIDP 使用 HTTP 状态码来返回请求的结果,主要有以下两种:

  • 200 — 状态码为 200 表示接口调用成功。
  • 413 — 当请求体大小超出限制时,返回此状态码。