文档解析指南
文档解析接口 idp/documentParsing 用于将文档转换为结构化 JSON / Markdown 结果。它通常作为抽取、搜索、RAG 或人工审核回显的前置步骤。
bash
curl --location --request POST 'https://api-server.compdf.com/server/v2/process/idp/documentParsing' \
--header 'x-api-key: <your-public-key>' \
--form 'file=@/path/to/document.pdf' \
--form 'pageRanges=1-3' \
--form 'parseOptions={"applyDocumentTree":true,"mergeTables":true}'这个接口会返回什么
一次典型解析请求通常会返回以下几部分:
| 路径 | 用途 |
|---|---|
code、message、x_request_id | 请求状态与排障定位 |
file_type | 输入文件类型,例如 PDF |
result | 核心解析结果对象,包含页级结果与统计汇总 |
metrics | 每页的处理元数据,例如 dpi、angle、耗时 |
image_process | 图片增强等额外处理结果;普通解析场景通常为空 |
其中 result 里最常用的字段包括:
| 路径 | 用途 |
|---|---|
result.pages | 页级解析结果,包含 structured 与 content |
result.markdown | 合并后的 Markdown 结果 |
result.catalog | 文档层级树 / 目录结构 |
result.valid_page_number | 成功解析的页数 |
result.total_page_number | 输入文档的总页数 |
result.success_count | 成功处理的页数或结果单元数 |
result.detail | 扁平化的段落级列表,按阅读顺序合并所有页的内容块 |
result.excel_base64 | 当输出包含 Excel 格式时的 Base64 编码结果 |