响应结构说明
documentParsing 的结果通常是一份 JSON 格式的解析结果。你不一定需要一次性吃透所有字段,但建议先掌握顶层对象的分层方式。
顶层结构
文档解析接口直接返回解析结果 JSON,无需通过 downloadUrl 二次下载。
json
{
"code": 200,
"message": "Success",
"x_request_id": "6512815b16964dc3a04939ebf685d975",
"file_type": "PDF",
"result": {
"pages": [ ... ],
"detail": [ ... ],
"catalog": {},
"markdown": "# Sample PDF ...",
"valid_page_number": 1,
"total_page_number": 1,
"success_count": 1,
"excel_base64": ""
},
"metrics": [ ... ],
"image_process": []
}关键字段说明
| 字段 | 说明 |
|---|---|
code | 业务状态码。200 表示成功;06001 表示资产不足(页数额度已用完) |
message | 人类可读的返回信息 |
x_request_id | 请求追踪 ID,便于排障 |
file_type | 识别后的输入文件类型,例如 PDF |
result | 解析主结果,包含页级内容与汇总信息 |
metrics | 每页处理指标,常用于质量和性能分析 |
image_process | 额外图像处理结果;普通解析场景通常为空 |
result 对象
result 是最核心的部分,常见字段如下:
| 字段 | 说明 |
|---|---|
result.pages | 每页的解析结果数组,包含 structured(结构化块)和 content(轻量内容) |
result.detail | 扁平化的段落级视角,将每页的块按阅读顺序合并为统一数组 |
result.markdown | 合并后的 Markdown 输出 |
result.catalog | 文档目录树 / 章节树 |
result.valid_page_number | 成功解析的页数 |
result.total_page_number | 输入文档总页数 |
result.success_count | 成功处理的页或结果单元数量 |
result.excel_base64 | 当输出模式包含 Excel 格式时的 Base64 编码结果 |
资产不足的错误响应
当您的页数额度已用完时,API 将返回以下错误:
json
{
"code": "06001",
"msg": "You have run out of the files which could be processed",
"data": null
}你通常会怎么用
- 只想展示全文结果:重点看
result.markdown - 需要按页回显内容:重点看
result.pages - 需要扁平化的段落级处理:重点看
result.detail - 需要做目录跳转:重点看
result.catalog - 需要监控质量或性能:重点看
metrics