Guides
智能文档提取
关键字段提取 - 同步
从文档中提取关键信息字段和表格信息。支持的文件格式:PDF、JPG、JPEG、PNG。
请求方式:
请求方法:POST。
参数传递方式:Body(form-data)。
请求地址:
https://localhost:7000/idp/intelligent-document-extraction
请求参数:
参数名 | 数据类型 | 描述 | 是否必填 |
---|---|---|---|
file | 文件 | 源文档。 | 是 |
keys | array[string] | 关键信息字段。 | 否 |
tableHandles | array[string] | 表头字段。 | 否 |
pages | array[int] | 指定需要提取的页码。 | 否 |
当 keys
和 tableHandles
都未提供时,将提取文件中的所有关键信息。
JSON 返回说明
返回参数 | 数据类型 | 描述 |
---|---|---|
code | String | 错误码,"200" 表示成功 |
message | String | 错误信息 |
data | Object | 返回结果 |
+details | Object | 关键信息提取结果 |
++Page-index | Object | 对应页码提取结果 |
+++key | String | 键值对形式的关键信息提取结果 |
+++tables | Array | 表格提取结果,格式为 tables:[ [table1], [table2] ] |
JSON 示例结构:
json
{
"code": "200",
"msg": "success",
"data": {
"details": {
"Page-1": {
"Order Date": "xxx",
"Order #": "xxx",
"Quote#": "xxx",
"Your estimated delivery date is": "xxx",
"tables": null
}
}
}
}
关键字段提取 - 异步
以异步方式从文档中提取关键信息字段和表格信息。支持的文件格式:PDF、JPG、JPEG、PNG。
上传并提交文件
上传需要处理的文件并获取 fileId
。
请求方式:
请求方法:POST。
参数传递方式:Body(form-data)。
请求地址:
https://localhost:7000/idp/async/intelligent-document-extraction
请求参数:
参数名 | 数据类型 | 描述 | 是否必填 |
---|---|---|---|
file | 文件 | 源文档。 | 是 |
keys | array[string] | 关键信息字段。 | 否 |
tableHandles | array[string] | 表头字段。 | 否 |
pages | array[int] | 指定提取页码。 | 否 |
当 keys
和 tableHandles
均未提供时,默认提取文件中的所有关键信息。
JSON 返回说明
返回参数 | 数据类型 | 描述 |
---|---|---|
code | String | 错误码,"200" 表示成功 |
message | String | 错误信息 |
data | Object | 返回结果 |
+fileId | String | 文件标识 ID |
JSON 示例结构:
json
{
"code": "200",
"msg": "success",
"data": {
"fileId": "62132012acb86cf41ec9f6273f4026e8"
}
}
获取处理结果
根据 fileId
获取文件处理结果。
当返回的 code 或 HTTP 状态码为 202 时,说明文件仍在处理中,请稍后再次调用该接口获取处理结果。
请求方式:
- 请求方法:POST。
- 参数传递方式:Body(form-data)。
请求地址:
https://localhost:7000/idp/get-file-data-extract-result
请求参数:
参数名 | 数据类型 | 描述 | 是否必填 |
---|---|---|---|
fileId | String | 文件 ID | 是 |
JSON 返回说明
返回参数 | 数据类型 | 描述 |
---|---|---|
code | String | 错误码,"200" 表示成功 |
message | String | 错误信息 |
data | Object | 返回结果 |
+details | Object | 关键信息提取结果 |
++Page-index | Object | 对应页码提取结果 |
+++key | String | 键值对形式的关键信息提取结果 |
+++tables | Array | 表格提取结果,格式为 tables:[ [table1], [table2] ] |
JSON 示例结构:
json
{
"code": "200",
"msg": "success",
"data": {
"details": {
"Page-1": {
"Order Date": "xxx",
"Order #": "xxx",
"Quote#": "xxx",
"Your estimated delivery date is": "xxx",
"tables": null
}
}
}
}
错误码说明
返回结构:
返回参数 | 数据类型 | 描述 |
---|---|---|
code | String | 错误码 |
msg | String | 错误描述 |
返回示例:
java
{
"code": "08005",
"msg": "关键信息提取失败。"
}
错误码参考:
错误码 | 描述 | 解决方案 |
---|---|---|
'01001' | 系统内部异常。 | 请联系 [email protected]。 |
'01003' | 文件上传出错。 | 请联系 [email protected]。 |
'03000' | 参数校验异常。 | 请检查文件处理参数,参考 API 接口 部分。 |
'02321' | PDF 文件不存在。 | 请联系 [email protected]。 |
'02002' | 文件大小为 0。 | 请检查文件是否成功上传。 |
'02004' | 文件处理失败。 | 请重试或联系 [email protected]。 |
'02006' | 文件返回错误。 | 请检查返回文件是否正常接收或联系 [email protected]。 |
'01004' | 文件上传异常。 | 请联系 [email protected]。 |
'01005' | 文件不能为空。 | 请检查上传文件是否成功。 |
'01203' | 找不到文件或无法打开文件。 | 请联系 [email protected]。 |
'02002' | 不支持此格式的文件转换。 | 请联系 [email protected]。 |
'02207' | 文件打开失败:不支持的类型或加密文件。 | 请检查文件是否有密码保护,并传入正确的密码参数。 |
'04003' | 文件不存在或无法打开。 | 请联系 [email protected]。 |
'07001' | 当前功能不支持。 | 请联系 [email protected]。 |
'08100' | License 无效。 | 请联系 [email protected] 获取正确的 LicenseKey。 |
'08101' | License 已过期。 | 请联系 [email protected] 获取正确的 LicenseKey。 |
'08102' | License 不支持当前平台。 | 请联系 [email protected] 获取正确的 LicenseKey。 |
'08105' | License 没有该功能权限。 | 请联系 [email protected] 获取正确的 LicenseKey。 |
'01006' | 文件参数异常,请设置正确的文件参数。 | 请检查文件参数是否正确。 |
'08002' | 执行器不存在或无法使用。 | 请检查执行器是否正常运行。 |
'08005' | 关键信息提取失败。 | 请联系 [email protected]。 |
状态码说明:
ComIDP 使用 HTTP 状态码来返回请求的结果,主要有以下两种:
- 200 — 状态码为 200 表示接口调用成功。
- 413 — 当请求体大小超出限制时,返回此状态码。