Skip to content

解析配置说明

本页聚焦 Parser 风格文档解析接口的请求参数。下面的说明和示例只保留 file 上传方式,并只展示当前对外使用的参数名。

请求参数

参数位置类型必填默认值说明
fileformfile输入文档文件
image_typequerystringurlMarkdown 中图片的嵌入方式:urlbase64
content_filterquerystringall仅保留指定类型的内容块
options_jsonformJSON string内置默认值解析行为配置,会与服务端默认值合并

image_type

image_type 控制图片类内容在 Markdown 结果里的输出方式:

说明
url以可访问 URL 的形式嵌入图片内容
base64以内联 Base64 的形式嵌入图片内容

如果你的结果需要直接被前端页面或知识库引用,通常建议使用 url;如果需要一个完全自包含的 Markdown 文件,可以选择 base64

content_filter

content_filter 用来裁剪返回结果中保留的内容类型。常见用法:

说明
all返回全部内容块
text只保留文本相关内容
table只保留表格相关内容
image只保留图片相关内容

当你只关心某一种块类型时,先在请求侧过滤,通常会比在下游代码里二次筛选更简单。

options_json

options_json 是一个 JSON 字符串,用于控制解析行为。常见能力包括:

  • 是否生成文档目录树
  • 是否合并跨块表格
  • 是否重排标题层级
  • 是否忽略页眉、页脚、角标等辅助内容

示例:

json
{
  "applyDocumentTree": true,
  "mergeTables": true,
  "relevelTitles": true,
  "ignore_labels": [
    "number",
    "footnote",
    "header",
    "header_image",
    "footer",
    "footer_image",
    "aside_text"
  ]
}

ignore_labels

ignore_labels 一般作为 options_json 的一部分传入,用来忽略解析结果中的辅助内容标签。当前支持的标签包括:

  • number
  • footnote
  • header
  • header_image
  • footer
  • footer_image
  • aside_text

如果你希望完整保留这些内容,可以显式传空数组:

bash
--form 'options_json={"ignore_labels":[]}'

推荐做法

  • 对实时预览场景,优先用 image_type=url,减小响应体体积。
  • 对知识抽取或检索场景,可用 content_filter=textcontent_filter=table 缩小下游处理范围。
  • 对版式较复杂的文档,建议开启目录树与表格合并能力,再结合 返回结构总览 一起调试。