抽取模式说明
智能文档抽取通过 mode 字段在同一入口 /v2/process/idp/documentExtract 下支持两种处理模式。不传时默认按 vision 处理。两种模式均使用固定的 extract_fields schema 入参:
| mode | 含义 | schema 入参 | 适用场景 |
|---|---|---|---|
vision | 基于视觉模型逐页独立抽取,对手写体等非结构化内容识别更稳。 | extract_fields | |
layout | 基于版面结构的一体化抽取,支持大文件与跨页抽取,并可通过 bbox grounding 进行结果溯源。 | extract_fields |
Vision 抽取(mode=vision,默认)
extract_fields 是 单个 schema 对象的 JSON 字符串:
bash
curl --location --request POST 'https://api-server.compdf.com/server/v2/process/idp/documentExtract' \
--header 'x-api-key: public_key' \
--form 'file=@/path/to/handwriting.pdf' \
--form 'mode=vision' \
--form 'extract_fields={"name":"Form","keys":{"姓名":{"prompt":"申请人姓名","mapping":null}},"tableHeaders":{}}'Layout 抽取(mode=layout)
layout 模式使用与 vision 相同的 extract_fields,传入一个固定 schema 的 JSON 字符串:
bash
curl --location --request POST 'https://api-server.compdf.com/server/v2/process/idp/documentExtract' \
--header 'x-api-key: public_key' \
--form 'file=@/path/to/invoice.pdf' \
--form 'mode=layout' \
--form 'extract_fields={"name":"发货清单","keys":{"批销单号":{"prompt":null,"mapping":null},"收货单位":{"prompt":null,"mapping":null}},"tableHeaders":{"Table_1":{"序号":{"prompt":null,"mapping":null},"ISBN":{"prompt":null,"mapping":null},"图书名称":{"prompt":null,"mapping":null},"数量":{"prompt":null,"mapping":null}}}}' \
--form 'enable_grounding=true'在使用 layout 模式时,如果需要结果定位回原文,可以开启 enable_grounding 参数,返回结果中会包含字段对应的文本块坐标信息,方便进行结果溯源和高亮展示: 同时,layout 模式支持与解析功能一样的 options_json 参数,详情参考 解析配置说明。
如何选择
- 优先用
layout:如果文档结构稳定、页数较多,或者需要把结果定位回原文 - 改用
vision:如果文档手写较多、扫描质量一般、版式非常自由
调用示例
bash
--form 'mode=vision'bash
--form 'mode=layout' \
--form 'enable_grounding=true'下一步可继续查看 抽取模板说明。