Skip to content

抽取模式说明

智能文档抽取通过 mode 字段在同一入口 /v2/process/idp/documentExtract 下支持两种处理模式。不传时默认按 vision 处理。两种模式均使用固定的 extract_fields schema 入参

mode含义schema 入参适用场景
vision基于视觉模型逐页独立抽取,对手写体等非结构化内容识别更稳。extract_fields
layout基于版面结构的一体化抽取,支持大文件与跨页抽取,并可通过 bbox grounding 进行结果溯源。extract_fields

Vision 抽取(mode=vision,默认)

extract_fields单个 schema 对象的 JSON 字符串:

bash
curl --location --request POST 'https://api-server.compdf.com/server/v2/process/idp/documentExtract' \
  --header 'x-api-key: public_key' \
  --form 'file=@/path/to/handwriting.pdf' \
  --form 'mode=vision' \
  --form 'extract_fields={"name":"Form","keys":{"姓名":{"prompt":"申请人姓名","mapping":null}},"tableHeaders":{}}'

Layout 抽取(mode=layout)

layout 模式使用与 vision 相同的 extract_fields,传入一个固定 schema 的 JSON 字符串:

bash
curl --location --request POST 'https://api-server.compdf.com/server/v2/process/idp/documentExtract' \
  --header 'x-api-key: public_key' \
  --form 'file=@/path/to/invoice.pdf' \
  --form 'mode=layout' \
  --form 'extract_fields={"name":"发货清单","keys":{"批销单号":{"prompt":null,"mapping":null},"收货单位":{"prompt":null,"mapping":null}},"tableHeaders":{"Table_1":{"序号":{"prompt":null,"mapping":null},"ISBN":{"prompt":null,"mapping":null},"图书名称":{"prompt":null,"mapping":null},"数量":{"prompt":null,"mapping":null}}}}' \
  --form 'enable_grounding=true'

在使用 layout 模式时,如果需要结果定位回原文,可以开启 enable_grounding 参数,返回结果中会包含字段对应的文本块坐标信息,方便进行结果溯源和高亮展示: 同时,layout 模式支持与解析功能一样的 options_json 参数,详情参考 解析配置说明

如何选择

  • 优先用 layout:如果文档结构稳定、页数较多,或者需要把结果定位回原文
  • 改用 vision:如果文档手写较多、扫描质量一般、版式非常自由

调用示例

bash
--form 'mode=vision'
bash
--form 'mode=layout' \
--form 'enable_grounding=true'

下一步可继续查看 抽取模板说明