文档解析指南

文档解析接口 idp/documentParsing 用于将文档转换为结构化 JSON / Markdown 结果。它通常作为抽取、搜索、RAG 或人工审核回显的前置步骤。

bash

curl --location --request POST 'https://api-server.compdf.com/server/v2/process/idp/documentParsing' \
  --header 'x-api-key: <your-public-key>' \
  --form 'file=@/path/to/document.pdf' \
  --form 'pageRanges=1-3' \
  --form 'parseOptions={"applyDocumentTree":true,"mergeTables":true}'

这个接口会返回什么

一次典型解析请求通常会返回以下几部分：

路径	用途
`code`、`message`、`x_request_id`	请求状态与排障定位
`file_type`	输入文件类型，例如 `PDF`
`result`	核心解析结果对象，包含页级结果与统计汇总
`metrics`	每页的处理元数据，例如 `dpi`、`angle`、耗时
`image_process`	图片增强等额外处理结果；普通解析场景通常为空

其中 result 里最常用的字段包括：

路径	用途
`result.pages`	页级解析结果，包含 `structured` 与 `content`
`result.markdown`	合并后的 Markdown 结果
`result.catalog`	文档层级树 / 目录结构
`result.valid_page_number`	成功解析的页数
`result.total_page_number`	输入文档的总页数
`result.success_count`	成功处理的页数或结果单元数
`result.detail`	扁平化的段落级列表，按阅读顺序合并所有页的内容块
`result.excel_base64`	当输出包含 Excel 格式时的 Base64 编码结果

建议阅读顺序

先看解析配置说明，明确 image_type、content_filter、options_json、ignore_labels 这些请求参数。
再看响应结构说明，掌握顶层 JSON 合同。
如果你需要把标题、表格、脚注映射回原页坐标，再看页级结构说明。
如果你更关注耗时、角度、DPI 等处理指标，再看处理指标说明。

文档解析指南 ​

这个接口会返回什么 ​

建议阅读顺序 ​

文档解析指南

这个接口会返回什么

建议阅读顺序