Skip to content

响应结构说明

documentParsing 的结果通常是一份 JSON 格式的解析结果。你不一定需要一次性吃透所有字段,但建议先掌握顶层对象的分层方式。

顶层结构

文档解析接口直接返回解析结果 JSON,无需通过 downloadUrl 二次下载。

json
{
  "code": 200,
  "message": "Success",
  "x_request_id": "6512815b16964dc3a04939ebf685d975",
  "file_type": "PDF",
  "result": {
    "pages": [ ... ],
    "detail": [ ... ],
    "catalog": {},
    "markdown": "# Sample PDF ...",
    "valid_page_number": 1,
    "total_page_number": 1,
    "success_count": 1,
    "excel_base64": ""
  },
  "metrics": [ ... ],
  "image_process": []
}

关键字段说明

字段说明
code业务状态码。200 表示成功;06001 表示资产不足(页数额度已用完)
message人类可读的返回信息
x_request_id请求追踪 ID,便于排障
file_type识别后的输入文件类型,例如 PDF
result解析主结果,包含页级内容与汇总信息
metrics每页处理指标,常用于质量和性能分析
image_process额外图像处理结果;普通解析场景通常为空

result 对象

result 是最核心的部分,常见字段如下:

字段说明
result.pages每页的解析结果数组,包含 structured(结构化块)和 content(轻量内容)
result.detail扁平化的段落级视角,将每页的块按阅读顺序合并为统一数组
result.markdown合并后的 Markdown 输出
result.catalog文档目录树 / 章节树
result.valid_page_number成功解析的页数
result.total_page_number输入文档总页数
result.success_count成功处理的页或结果单元数量
result.excel_base64当输出模式包含 Excel 格式时的 Base64 编码结果

资产不足的错误响应

当您的页数额度已用完时,API 将返回以下错误:

json
{
  "code": "06001",
  "msg": "You have run out of the files which could be processed",
  "data": null
}

你通常会怎么用

  • 只想展示全文结果:重点看 result.markdown
  • 需要按页回显内容:重点看 result.pages
  • 需要扁平化的段落级处理:重点看 result.detail
  • 需要做目录跳转:重点看 result.catalog
  • 需要监控质量或性能:重点看 metrics

结合其它页面阅读