OCR
概述
OCR(Optical Character Recognition,光学字符识别)用于将图片中的打印体、手写体或扫描文字转换为机器可读文本。
OCR 常用于扫描 PDF、文档照片、场景图片、发票、票据和其他图片型文档的文字识别与提取。
以下功能支持 OCR:
- PDF 转 Word
- PDF 转 Excel
- PDF 转 PowerPoint
- PDF 转 HTML
- PDF 转 RTF
- PDF 转 TXT
- PDF 转可搜索 PDF
- PDF 转 OFD
- PDF 提取为 JSON
- PDF 提取为 Markdown
设置 OCR 语言
使用 languages 指定 OCR 语言。该值是 OCRLanguage 常量数组。
ruby
options = ComPDFConversion::ConvertOptions.new
options.enable_ocr = true
options.languages = [
ComPDFConversion::OCRLanguage::ENGLISH,
ComPDFConversion::OCRLanguage::CHINESE
]OCR 选项
使用 ocr_option 控制 OCR 处理范围。
ruby
options.ocr_option = ComPDFConversion::OCROption::ALL保留页面背景
启用 OCR 时,可使用 contain_page_background_image 控制是否保留页面背景图片。
ruby
options.contain_page_background_image = true示例
ruby
ComPDFConversion::LibraryManager.set_document_ai_model("/path/to/documentai.model", -1)
options = ComPDFConversion::ConvertOptions.new
options.enable_ocr = true
options.languages = [ComPDFConversion::OCRLanguage::ENGLISH]
options.ocr_option = ComPDFConversion::OCROption::ALL
result = ComPDFConversion::Conversion.start_pdf_to_word(
input_file_path,
"",
output_file_path,
options
)