PDF 转 TXT:
概述
当需要将 PDF 文件中的文本内容提取出来,以便进行后续的数据分析、文本挖掘、信息检索等应用。使用 ComPDFKit Conversion SDK 可以轻松将 PDF 中的文本内容提取到 .txt 文件中。
设置保留表格样式
在 ComPDFKit Conversion SDK 中,支持保留表格样式TxtTableFormat
,即在写入 Txt 文件时会按照原始的表格结构顺序写入。通常情况下我们都建议开启该选项,这对于数据提取的场景特别有用。
示例
以下是完整的示例代码,演示了如何将 PDF 文档转换为 .txt 文件。
python
convert_options = ConvertOptions()
error_code = CPDFConversion.start_pdf_to_txt(r"input_path", "password", r"output_path", convert_options)