Skip to content

PDF 转 HTML

概述

ComPDFKit Conversion SDK 提供了 PDF 转 HTML 的功能,可以将 PDF 文件转换为 HTML 文件,同时保持原始文档的内容布局和格式,可供用户在浏览器中对文档进行搜索和浏览。

注意事项

在进行 PDF 转换 HTML 格式时,ComPDFKit Conversion SDK 提供了以下四种转换样式:

LayoutDescription
HtmlOption.SinglePage将整个 PDF 文件转换为单个 HTML 文件,所有 PDF 页面按页码先后顺序,首尾相连,展示在同一 HTML 页面中。
HtmlOption.SinglePageNavigationByBookmarks将 PDF 文件转换为单个 Html 文件。且在页前展示文件的大纲进行导航。依然,所有 PDF 页面按页码先后顺序,首尾相连,展示在同一 HTML 页面中。
HtmlOption.MultiplePages将 PDF 文件转换为多个 HTML 文件。每个 HTML 文件对应一个 PDF 页面,可通过页面下方链接跳转到下一页面(即另一个 HTML 页面)。
HtmlOption.MultiplePagesSplitByBookmarks将 PDF 文件转换为多个 HTML 文件,每个 HTML 文件对应一个 PDF 页面,可通过页面下方链接跳转到下一页面(即另一个 HTML 页面)。所有的 HTML 页面会有一个大纲 HTML 页面进行导航,点击大纲可跳转到对应的 HTML 页面。

示例

以下是完整的示例代码,演示了如何将 PDF 文档转换为 HTML 文档。

python
options = ConvertOptions()
error_code = PDFToOffice.start_pdf_to_html("sample.pdf", "", "path/to/output", options, callback)

if error_code == ErrorCode.Success:
    print("Convert success")