Skip to content

OCR

概述

OCR(Optical Character Recognition,光学字符识别)用于将图片中的打印体、手写体或扫描文字转换为机器可读文本。

OCR 常用于扫描 PDF、文档照片、场景图片、发票、票据和其他图片型文档的文字识别与提取。

以下功能支持 OCR:

  • PDF 转 Word
  • PDF 转 Excel
  • PDF 转 PowerPoint
  • PDF 转 HTML
  • PDF 转 RTF
  • PDF 转 TXT
  • PDF 转可搜索 PDF
  • PDF 转 OFD
  • PDF 提取为 JSON
  • PDF 提取为 Markdown

设置 OCR 语言

使用 languages 指定 OCR 语言。该值是数字类型 OCR 语言常量数组。

js
const OCRLanguage = {
  CHINESE: 1,
  ENGLISH: 3,
  AUTO: 16
};

const options = {
  enableOcr: true,
  languages: [OCRLanguage.ENGLISH, OCRLanguage.CHINESE]
};

OCR 选项

使用 ocrOption 控制 OCR 处理范围。

js
const OCROption = {
  INVALID_CHARACTER: 0,
  SCAN_PAGE: 1,
  INVALID_CHARACTER_AND_SCAN_PAGE: 2,
  ALL: 3
};

options.ocrOption = OCROption.ALL;

保留页面背景

启用 OCR 时,可使用 containPageBackgroundImage 控制是否保留页面背景图片。

js
options.containPageBackgroundImage = true;

示例

js
sdk.setDocumentAIModel("/path/to/documentai.model", -1);

const options = {
  enableOcr: true,
  languages: [3],
  ocrOption: 3
};

const result = sdk.startPDFToWord(inputFilePath, "", outputFilePath, options);