解析配置说明

本页聚焦 Parser 风格文档解析接口的请求参数。下面的说明和示例只保留 file 上传方式，并只展示当前对外使用的参数名。

请求参数

参数	位置	类型	必填	默认值	说明
`file`	form	file	是	—	输入文档文件
`image_type`	query	string	否	`url`	Markdown 中图片的嵌入方式：`url` 或 `base64`
`content_filter`	query	string	否	`all`	仅保留指定类型的内容块
`options_json`	form	JSON string	否	内置默认值	解析行为配置，会与服务端默认值合并

`image_type`

image_type 控制图片类内容在 Markdown 结果里的输出方式：

值	说明
`url`	以可访问 URL 的形式嵌入图片内容
`base64`	以内联 Base64 的形式嵌入图片内容

如果你的结果需要直接被前端页面或知识库引用，通常建议使用 url；如果需要一个完全自包含的 Markdown 文件，可以选择 base64。

`content_filter`

content_filter 用来裁剪返回结果中保留的内容类型。常见用法：

值	说明
`all`	返回全部内容块
`text`	只保留文本相关内容
`table`	只保留表格相关内容
`image`	只保留图片相关内容

当你只关心某一种块类型时，先在请求侧过滤，通常会比在下游代码里二次筛选更简单。

`options_json`

options_json 是一个 JSON 字符串，用于控制解析行为。常见能力包括：

是否生成文档目录树
是否合并跨块表格
是否重排标题层级
是否忽略页眉、页脚、角标等辅助内容

示例：

json

{
  "applyDocumentTree": true,
  "mergeTables": true,
  "relevelTitles": true,
  "ignore_labels": [
    "number",
    "footnote",
    "header",
    "header_image",
    "footer",
    "footer_image",
    "aside_text"
  ]
}

`ignore_labels`

ignore_labels 一般作为 options_json 的一部分传入，用来忽略解析结果中的辅助内容标签。当前支持的标签包括：

number
footnote
header
header_image
footer
footer_image
aside_text

如果你希望完整保留这些内容，可以显式传空数组：

bash

--form 'options_json={"ignore_labels":[]}'

PDF SDK 与 AI 文档处理

解析配置说明

请求参数

`image_type`

`content_filter`

`options_json`

`ignore_labels`

推荐做法

解析配置说明 ​

请求参数 ​

image_type ​

content_filter ​

options_json ​

ignore_labels ​

推荐做法 ​

解析配置说明

请求参数

`image_type`

`content_filter`

`options_json`

`ignore_labels`

推荐做法