响应结构说明
抽取接口的返回结果可以理解为“字段结果 + 可选定位信息”。如果你开启了 enable_grounding,还会带上可回溯到原文页面的 bbox 信息。
顶层理解方式
API 返回标准的任务级响应。抽取结果(fields、tables、pages 等)位于 downloadUrl 或 fileUrl 所指向的下载结果文件中。
json
{
"code": "200",
"msg": "success",
"data": {
"fileKey": "<string>",
"taskId": "<string>",
"fileName": "<string>",
"downFileName": "<string>",
"fileUrl": "<string>",
"downloadUrl": "<string>",
"sourceType": "<string>",
"targetType": "<string>",
"fileSize": 0,
"convertSize": 0,
"convertTime": 0,
"status": "<string>",
"failureCode": "<string>",
"failureReason": "<string>",
"fileParameter": "<string>"
}
}从 downloadUrl 下载的结果文件中包含实际的抽取负载:
text
result
name / key
value
page
bboxes字段结果
普通字段结果通常会包含:
| 字段 | 说明 |
|---|---|
name / key | 字段名 |
value | 抽取出的字段值 |
page | 字段所在页码(若返回) |
bboxes | 字段在原页中的位置(开启 grounding 时更常见) |
表格结果
表格类结果通常按“表名 -> 行 -> 单元格”组织。你可以把它理解成:
- 表格名称
- 每一行记录
- 行内每个单元格对应的字段值
如果 schema 中定义了 tableHeaders,返回结果通常也会按这些表头组织,便于直接落库或映射到业务对象。
抽取结果示例
以下是一个实际的抽取结果示例(按页组织):
json
{
"Page-1": {
"批销单号": "PXD222085",
"发货方式": "汽运",
"客户单号": "5444412/1891133",
"审批日期": "2024-05-07",
"收货单位": "上海合小合信息科技有限公司",
"单位编码": "21002214",
"仓储联系人": "",
"tables": [
[
{
"序号": "1",
"数量": "98",
"ISBN": "978-7-5197-8886-5",
"码洋": "4,862.00",
"图书名称": "\"张三\"身边的法律事儿",
"折扣": "66.00",
"单价": "49.00",
"包册数": "2+10(14)",
"货位号": "01-02-027-005"
},
{
"序号": "2",
"数量": "3",
"ISBN": "978-7-5197-9009-7",
"码洋": "255.00",
"图书名称": "破产审判实务与前沿问题研究",
"折扣": "66.00",
"单价": "85.00",
"包册数": "0+3(8)",
"货位号": "01-02-063-002"
}
]
]
}
}资产不足的错误响应
当您的页数额度已用完时,API 将返回以下错误:
json
{
"code": "06001",
"msg": "You have run out of the files which could be processed",
"data": null
}enable_grounding
当你传入:
bash
--form 'enable_grounding=true'服务端会尽量返回字段或表格单元格在原文中的位置信息,常见用途包括:
- 在原 PDF 上高亮字段
- 点击抽取结果时回跳到原页
- 做人工审核与校对
如何使用结果
- 只关心字段值:读取
fields - 需要明细表:读取
tables - 需要高亮回显:同时读取
page与bbox - 需要全文上下文:结合解析接口的
documentParsing结果一起使用