Skip to content

提取 PDF 为 JSON

概述

将 PDF 文档中的文本、表格和图片提取为 JSON 文件。

标准表格和非标准表格

常见表格可分为以下两类:

  • 标准表格:表格边框和内部线条完整清晰。
  • 非标准表格:表格缺少边框或内部线条不清晰,需要通过表格识别恢复结构。

表格提取选项

ComPDF Conversion SDK 支持 json_contain_table 选项。启用后会将 PDF 中的表格内容按表格结构提取;否则表格内容会按普通文本处理。

注意事项

如果未启用 AI 版面分析或 OCR 选项,原始 PDF 中的表格可能无法被高精度提取。处理复杂表格时,建议启用 AI 版面分析、OCR 或表格识别。

示例

ruby
options = ComPDFConversion::ConvertOptions.new
options.json_contain_table = true
options.enable_ai_layout = true
options.enable_ai_table_recognition = true

result = ComPDFConversion::Conversion.start_pdf_to_json(
  input_file_path,
  "",
  output_file_path,
  options
)