表格识别
表格识别重建版面分析检测到的表格内部结构,使转换文档保留原始表格语义。由 enable_ai_table_recognition 控制,默认启用。
受益场景:无边框表格、合并单元格表格、OCR 扫描表格。支持 Word、Excel、PowerPoint、HTML、RTF、CSV、JSON、Markdown。
表格识别仅在版面分析活跃时运行。使用前需加载 DocumentAI 模型或通过下方回调插入自己的表格模型。
python
from compdf import LibraryManager, ConvertOptions
LibraryManager.set_document_ai_model("path/documentai_v4.model")
options = ConvertOptions()
options.enable_ai_layout = True
options.enable_ai_table_recognition = True
CPDFConversion.start_pdf_to_word("input.pdf", "", "output.docx", options)