本页内容
提取 PDF 为 Json
概述
从 PDF 文档中提取文本、图片和表格数据为 Json 文件。
表格类型:标准表格 & 非标准表格
常见的表格类型可以分为标准表格与非标准表格两类,具体定义如下:
- 标准表格:表格边框完整,表格内线完整且清晰,无需人为再添加表格线条做表格内容分割。
- 非标准表格:缺少表格边框或者表格内线,表格线条不清晰,需要人为添加表格线条分割表格内容。
设置是否提取表格
在 ComPDFKit Conversion SDK 中,支持是否提取表格选项containTable
,开启该选项时会提取 PDF 中的表格内容并输出对应的表格结构,否则表格内的内容会被当成普通段落。
示例
以下是完整的示例代码,演示了基本的表格提取功能。
objective-c
JsonOptions *jsonOptions = [[JsonOptions alloc] init];
[CPDFConversion startPDFToJson:@"json.pdf" password:@"" outputPath:@"output.json" options:jsonOptions];