提取 PDF 为 JSON
概述
将 PDF 文档中的文本、表格和图片提取为 JSON 文件。
标准表格和非标准表格
常见表格可分为以下两类:
- 标准表格:表格边框和内部线条完整清晰。
- 非标准表格:表格缺少边框或内部线条不清晰,需要通过表格识别恢复结构。
表格提取选项
ComPDF Conversion SDK 支持 json_contain_table 选项。启用后会将 PDF 中的表格内容按表格结构提取;否则表格内容会按普通文本处理。
注意事项
如果未启用 AI 版面分析或 OCR 选项,原始 PDF 中的表格可能无法被高精度提取。处理复杂表格时,建议启用 AI 版面分析、OCR 或表格识别。
示例
ruby
options = ComPDFConversion::ConvertOptions.new
options.json_contain_table = true
options.enable_ai_layout = true
options.enable_ai_table_recognition = true
result = ComPDFConversion::Conversion.start_pdf_to_json(
input_file_path,
"",
output_file_path,
options
)