Skip to content
ComPDF
Guides

智能文档提取

从文档中提取关键信息字段和表格信息。支持上传的文件格式: PDF、JPG、JPEG、PNG。支持下载的结果类型有: JSON、TXT、Excel、CSV


首页

在首页,您可以直接访问智能文档抽取功能。首页是 ComPDF AI 功能导航的中心,便于快速访问常用模块。

extract home

单份文档抽取

针对一份文档进行智能文档抽取。
选择你要进行抽取的文件,上传成功之后选择你想要进行抽取的模式,分别为 指定字段提取提取文档中所有关键信息

extract single

点击 Extract Now 后稍作等待即可看到智能文档抽取结果

extract result

批量文档抽取

针对最多三十份文档进行批量抽取。
点击上方 Bulk 按钮切换至批量文档抽取,上传你要进行抽取的文件,设置需要抽取的固定字段,点击 Extract Now 后稍作等待即可看到智能文档抽取结果。

  • Text Field: 需要抽取的关键信息字段名
  • Table Field: 需要抽取的表格表头名。支持自定义表头。

extract bulk

抽取字段模板功能介绍

支持将设定好的抽取字段保存起来以方便下次抽取直接使用,默认提供两个模板(发票模板和订单模板)。

当你做出更改之后,点击下方 Save as Template 保存按钮,就会得到一个新的抽取字段模板。 alt textalt text

注意:你最多能保存5个新的模板,且名称不能重复。

抽取字段增加提示词功能介绍

给抽取字段增加额外的提示词增加抽取正确率。

鼠标单击需要增加提示词的字段,弹出提示词填写框,输入需要增加的提示词,点击 OK 按钮即可。

如果你保存字段带有提示词的模板,模板中也会保存该字段的提示词。

alt text

抽取JSON字段介绍

JSON内容说明

参数名数据类型描述
codeStringError code, "200" means success
messageStringError message
dataObjectReturn result
+detailsObjectKey information extraction result
++Page-indexObjectCorresponding page number extraction result
+++keyStringKey information field extraction result, key:value
+++tablesArrayKey information table extraction results, tables:[ [table1], [table2] ]

JSON 示例:

json
{
    "code": "200",
    "msg": "success",
    "data": {
        "details": {
            "Page-1": {
                "Order Date": "xxx",
                "Order #": "xxx",
                "Quote#": "xxx",
                "Your estimated delivery date is": "xxx",
                "tables": null
            }
        }
    }
}