Skip to content

智能文档解析

基于 AI 的 ComIDP 解决方案,能够智能处理和理解文档和图片内容,包括报告、合同、论文等标准文件,识别和分类元素、模块和结构,同时保留原始阅读逻辑,通过结构化非结构化和半结构化数据,为下游应用提供精准数据源。

目前支持解析出来的类型有:文本, 段落, 图片, 标准表格, 非标准表格, 目录, 有序列表, 标题, 无序列表, 公式, 页眉, 页脚, 页码, 图片标题, 图片描述, 参考文献, 表格标题, 表格描述, 代码, 算法。

首页

在首页,您可以直接访问智能文档解析功能。首页是 ComIDP 功能导航的中心,便于快速访问常用模块。

parsing home

单份文档解析

针对一份文档进行智能文档解析。
选择你要进行解析的文件,上传成功之后自动开始文档解析。你可以切换不同的结果选项来查看对应的结果,目前支持:Markdown, JSON, TOC, Table, Image, Text。

extract singleextract result

批量文档解析

针对最多三十份文档进行批量解析。
点击上方 Bulk 按钮切换至批量文档解析,上传你要进行解析的文件,设置解析参数,点击 Start Parsing 后稍作等待即可看到智能文档解析结果。

extract bulk

解析JSON字段介绍

js
◆ success_count 转换成功页面数<br/>
◆ total_count 转换页面数<br/>
version (string) 版本号<br/>

pages (array) 分页数据容器<br/>
  ├─ angle (integer):文本排版方向(0: 水平/90: 竖排)<br/>
  ├─ page_id (number):当前页码<br/>
  ├─ image_id (string):当前页面对应的图片的相对目录地址<br/>
  ├─ width (integer):文档页宽度(像素)<br/>
  ├─ height (integer):文档页高度(像素)<br/>
  ├─ content (array):基础数据: 文字行, 图像中的其中一种 <br/>
     ├─ id(integer):当前段落所在页面上的阅读顺序id<br/>
     ├─ score (integer):AI版面分析结果的分数,0~1之间,越接近1代表越可信<br/>
     ├─ text (string):文本<br/>
     ├─ type (string):类型, paragraph(段落类型,包括正文、标题、公式等文字信息)<br/>
     ├─ position (array):该目录区域的四个角点坐标,依次left-top,right-top,right-bottom,left-bottom.<br/>

catalog (object) 目录树结构<br/>
  │  └─ toc (array)<br/>
  │     ├─ pos (array):该目录区域的四个角点坐标,依次left-top,right-top,right-bottom,left-bottom.<br/>
  │     ├─ paragraph_id (integer):标题所在段落id<br/>
  │     ├─ page_id (integer):标题所在页码 (最小页码为 1)<br/>
  │     ├─ content(string):标题内容<br/>
  │     └─ type(string):标题类型 catalogue、 title、 figure_title、 table_title<br/>

metrics (array) 页面级性能指标<br/>
  ├─ page_image_width (integer):当前页渲染宽度(像素)<br/>
  ├─ page_image_height (integer):当前页渲染高度(像素)<br/>
  ├─ page_id (number):当前页码<br/>
  ├─ angle (integer):文本排版方向(0: 水平/90: 竖排)<br/>
  └─ image_id (string):当前页面对应的图片的相对目录地址(同pages.image_id)<br/>

detail (array) 分页数据容器<br/>
	 ├─ page_id (integer):当前段落所在页码<br/>
     ├─ paragraph_id (integer):当前段落id<br/>
     ├─ text (string):文本,当type为图片或表格时目前为空<br/>
     ├─ type (string):类型, paragraph(段落类型,包括正文、标题、公式等文字信息)、image(图片类型)、table(表格类型)<br/>
     ├─ image_url (string):图片地址<br/>
     ├─ position (array):该目录区域的四个角点坐标,依次left-top,right-top,right-bottom,left-bottom.<br/>
     ├─ tags (array):表示段落内是否存在特殊文本,类型包括公式formula和手写体handwritten(目前暂不支持,为空数组,仅为之后预留结构)<br/>
     │─ cells (array):单元格数组, 仅在type为table时返回<br/>
     │  ├─ row_span (integer):单元格行跨度,默认为1<br/>
     │  ├─ text (integer):单元格文本内容<br/>
     │  ├─ type (integer):cell代表一个表格单元格<br/>
     │  ├─ col (integer):单元格列号<br/>
     │  ├─ col_span (integer):单元格列跨度,默认为1<br/>
     │  ├─ position (integer):单元格的四个角点坐标,依次left-top,right-top,right-bottom,left-bottom.<br/>
     │  └─ row (integer):单元格行号<br/>

Detail详情分类

类型描述
paragraph段落
figure图片
standard_table标准表格
unstandard_table非标准表格
ordered_list有序列表
catalogue目录
title标题
unordered_list无序列表
formula公式
header页眉
footer页脚
page_number页码
figure_title图片标题
figure_caption图片描述
reference参考文献
table_title表格标题
table_caption表格描述
code代码
algorithm算法