VitePress

OCR

概述

OCR（Optical Character Recognition，光学字符识别）用于将图片中的打印体、手写体或扫描文字转换为机器可读文本。

OCR 常用于扫描 PDF、文档照片、场景图片、发票、票据和其他图片型文档的文字识别与提取。

以下功能支持 OCR：

PDF 转 Word
PDF 转 Excel
PDF 转 PowerPoint
PDF 转 HTML
PDF 转 RTF
PDF 转 TXT
PDF 转可搜索 PDF
PDF 转 OFD
PDF 提取为 JSON
PDF 提取为 Markdown

设置 OCR 语言

使用 languages 指定 OCR 语言。该值是 OCRLanguage 常量数组。

ruby

options = ComPDFConversion::ConvertOptions.new
options.enable_ocr = true
options.languages = [
  ComPDFConversion::OCRLanguage::ENGLISH,
  ComPDFConversion::OCRLanguage::CHINESE
]

OCR 选项

使用 ocr_option 控制 OCR 处理范围。

ruby

options.ocr_option = ComPDFConversion::OCROption::ALL

保留页面背景

启用 OCR 时，可使用 contain_page_background_image 控制是否保留页面背景图片。

ruby

options.contain_page_background_image = true

示例

ruby

ComPDFConversion::LibraryManager.set_document_ai_model("/path/to/documentai.model", -1)

options = ComPDFConversion::ConvertOptions.new
options.enable_ocr = true
options.languages = [ComPDFConversion::OCRLanguage::ENGLISH]
options.ocr_option = ComPDFConversion::OCROption::ALL

result = ComPDFConversion::Conversion.start_pdf_to_word(
  input_file_path,
  "",
  output_file_path,
  options
)

OCR ​

概述 ​

设置 OCR 语言 ​

OCR 选项 ​

保留页面背景 ​

示例 ​

OCR

概述

设置 OCR 语言

OCR 选项

保留页面背景

示例