解析配置说明
本页聚焦 Parser 风格文档解析接口的请求参数。下面的说明和示例只保留 file 上传方式,并只展示当前对外使用的参数名。
请求参数
| 参数 | 位置 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|---|
file | form | file | 是 | — | 输入文档文件 |
image_type | query | string | 否 | url | Markdown 中图片的嵌入方式:url 或 base64 |
content_filter | query | string | 否 | all | 仅保留指定类型的内容块 |
options_json | form | JSON string | 否 | 内置默认值 | 解析行为配置,会与服务端默认值合并 |
image_type
image_type 控制图片类内容在 Markdown 结果里的输出方式:
| 值 | 说明 |
|---|---|
url | 以可访问 URL 的形式嵌入图片内容 |
base64 | 以内联 Base64 的形式嵌入图片内容 |
如果你的结果需要直接被前端页面或知识库引用,通常建议使用 url;如果需要一个完全自包含的 Markdown 文件,可以选择 base64。
content_filter
content_filter 用来裁剪返回结果中保留的内容类型。常见用法:
| 值 | 说明 |
|---|---|
all | 返回全部内容块 |
text | 只保留文本相关内容 |
table | 只保留表格相关内容 |
image | 只保留图片相关内容 |
当你只关心某一种块类型时,先在请求侧过滤,通常会比在下游代码里二次筛选更简单。
options_json
options_json 是一个 JSON 字符串,用于控制解析行为。常见能力包括:
- 是否生成文档目录树
- 是否合并跨块表格
- 是否重排标题层级
- 是否忽略页眉、页脚、角标等辅助内容
示例:
json
{
"applyDocumentTree": true,
"mergeTables": true,
"relevelTitles": true,
"ignore_labels": [
"number",
"footnote",
"header",
"header_image",
"footer",
"footer_image",
"aside_text"
]
}1
2
3
4
5
6
7
8
9
10
11
12
13
14
2
3
4
5
6
7
8
9
10
11
12
13
14
ignore_labels
ignore_labels 一般作为 options_json 的一部分传入,用来忽略解析结果中的辅助内容标签。当前支持的标签包括:
numberfootnoteheaderheader_imagefooterfooter_imageaside_text
如果你希望完整保留这些内容,可以显式传空数组:
bash
--form 'options_json={"ignore_labels":[]}'1
推荐做法
- 对实时预览场景,优先用
image_type=url,减小响应体体积。 - 对知识抽取或检索场景,可用
content_filter=text或content_filter=table缩小下游处理范围。 - 对版式较复杂的文档,建议开启目录树与表格合并能力,再结合 返回结构总览 一起调试。