`
james_lover
  • 浏览: 43843 次
社区版块
存档分类
最新评论

今天终于把pdf2htmlEX的pdf转html编译出来,并成功将pdf转成html

阅读更多

       半月前,考虑做一个在线阅读页面。需要用来pdf2htmlEX(https://github.com/coolwanglu/pdf2htmlEX ,开源工具),刚开始一直编译不过去。今天记录一点小问题:关于字体识别。

       如果系统没有安装字体时,pdf2htmlEX会默认隐藏该字段内容。转换的html没有内容。

通过修改源码:

./src/HTMLRenderer/font.cc

// TODO: this function is called when some font is unable to process, may use the name there as a hint
void HTMLRenderer::export_remote_default_font(long long fn_id)
{
    f_css.fs << "." << CSS::FONT_FAMILY_CN << fn_id << "{font-family:sans-serif;visibility:visible;}" << endl;
   // f_css.fs << "." << CSS::FONT_FAMILY_CN << fn_id << "{font-family:sans-serif;visibility:hidden;}" << endl;
}

 ,再编译之后,就能显示字体内容了。

来看下效果:

这是原pdf文档:

 

       下面是转换后的:



 

  • 大小: 94.4 KB
  • 大小: 148.1 KB
0
0
分享到:
评论

相关推荐

    pdf2htmlEX-0.14.6.tar.gz-Linux版本

    pdf2htmlEX支持将PDF文件中的文本、图像和链接等内容都转换成HTML格式,并保留原文档的布局和格式。 pdf2htmlEX为用户提供了丰富的配置选项,可以根据用户的需求进行相应的设置。用户可以指定输出文件的名称、页面...

    NET(C#)中使用pdf2htmlEX实现pdf向html的格式转换器.rar

    本文将深入探讨如何在.NET框架下,利用C#编程语言和开源工具pdf2htmlEX来实现这个功能。 PDF(Portable Document Format)是一种广泛使用的文件格式,它能保持文档的原始布局和样式。然而,为了在Web环境中更好地...

    .Net HTML页面转PDF格式

    描述中提到可以通过URL或本地文件夹进行转换,并且提供了一个名为"HtmlToPDF"的小工具,这表明这是一个可执行程序,可能是用C#语言编写,并在Visual Studio环境下编译而成。 在.NET环境中,实现HTML到PDF的转换,...

    XPDF ,pdf转html,Pdf转txt

    XPDF还包含了`pdf2htmlEX`工具,它可以将PDF文档转换成HTML格式,保持原有的页面布局和图像。这对于想要在网页上展示PDF内容或者需要对PDF进行在线阅读的用户来说是一个很好的解决方案。HTML版本的文档可以在各种...

    pdf js 编译好的

    2. **分页渲染**:PDF.js将PDF文档分割成单独的页面,并逐个在浏览器中渲染。用户可以平滑滚动查看文档。 3. **高质量渲染**:通过使用矢量图形和高质量的图像处理,PDF.js能保持原始PDF文档的清晰度和细节。 4. *...

    html转pdf css控制

    "html转pdf css控制"指的是在将HTML文档转换为PDF格式时,如何正确处理和应用CSS样式。这个过程可能会遇到一些挑战,比如样式解析错误、元素布局不正确、字体显示异常等问题。因此,掌握CSS在转换过程中的工作原理...

    Html转PDF(C#)代码.rar

    其中,iTextSharp主要用于PDF文档的创建和编辑,而wkhtmltopdf是一个基于WebKit的工具,它可以将HTML页面渲染成高质量的PDF。PDFSharp则提供了创建、编辑和操作PDF文档的C#接口。 在这个压缩包中,我们看到有以下几...

    OFD批量转换PDF源代码

    标题中的“OFD批量转换PDF源代码”指出这是一个关于将OFD文件批量转换为PDF格式的程序源代码。OFD(Open Fixed-layout Document)是中国国家标准的电子文档格式,主要用于存储固定版面的文档,如政府文件、发票等。...

    aspose office转pdf或html.rar

    2. **Aspose Excel 转 PDF/HTML** 对于Excel文档,Aspose.Cells API允许开发人员将工作簿(.xls, .xlsx)转换成PDF或HTML。转换时,样式、公式、图表和数据透视表都将被保留。同样,调用`Workbook`对象的`save`方法...

    最新1.9pdf.js官方编译版

    2. **高性能渲染**:PDF.js通过将PDF文档分解为多个小块(tiles),并异步加载和渲染,提高了页面加载速度,使得大型PDF文件的显示更为流畅。 3. **离线阅读**:用户可以将PDF.js集成到自己的应用程序中,实现离线...

    使用Java编写脚本来将PDF转换为图像,Java的PDF处理库,Apache PDFBox

    2、执行以下命令来运行生成的类文件,并提供PDF文件的路径和输出文件夹的路径作为命令行参数: java PDFToImageConverter path_to_pdf_file.pdf path_to_output_folder 请将path_to_pdf_file.pdf替换为您要转换的PDF...

    CHM2PDF_CHM转PDF

    CHM2PDF是一款实用的工具,专门用于将CHM(Microsoft Compiled HTML Help)格式的文件转换为PDF(Portable Document Format)文件。CHM文件通常用于技术文档和电子书,而PDF则是广泛接受的标准,适用于跨平台查看和...

    python实现的离线pdf转word小工具

    代码使用需要pdf2docx三方包实现,为了在前台打印更多日志,将三方包中的Converter类进行了改进,将def __init__(self, pdf_file:str, password:str=None) 参数增加了func回调函数def __init__(self, pdf_file:str, ...

    Acrobat.pdf2image c# pdf转图片

    本文将详细讨论如何在C#编程环境中实现PDF到图片的转换,主要涉及的标签是`pdf2image`。 首先,我们需要一个能够处理PDF并将其转换为图像的库。在C#中,我们可以使用如Ghostscript或PDFsharp这样的第三方库。在这个...

    python pyqt5 PDF转jpg程序,实现PDF批量转成jpg

    在这个程序中,我们可能使用`PyPDF2`来打开PDF文件,并逐页读取内容。每一页的PDF内容可以被渲染为一个图像,然后保存为JPEG格式。 接下来,我们来看看PyQT5的角色。PyQT5提供了一个叫做`QGraphicsView`的组件,...

    c++ word\excel\ppt转pdf .rar

    然后,使用PDF生成库如PDFlib、Qoppa Software的gPDF或poppler库将解析出的数据转换成PDF格式。 6. **流程概述**: - 解析Office文件:使用合适的库读取.docx, .xlsx或.pptx文件的内容,提取文本、图片、样式等...

    mutool.exe方式pdf转换图片

    在使用`mutool.exe`进行PDF转图片时,你需要首先确保已经下载并安装了MuPDF。你可以从官方网站获取最新版本的MuPDF,它通常包含一个名为`mutool.exe`的可执行文件。然后,通过命令行界面,你可以调用这个工具进行...

    Delphi实现Word、PDF文档转Image

    在实现"Word转Jpg"的过程中,通常会利用Windows API或第三方库来读取Word文档内容,并将其渲染为图像。对于PDF文档,可能需要使用专门的PDF解析库,如Ghostscript或iText,来获取页面内容并转换成图像。 在这个项目...

    基于开源PdfiumLib实现PDF转图片

    PDF转图片技术是一种将PDF文档转换为图像格式(如JPEG或PNG)的技术,这在许多场景下非常有用,比如预览、打印、分享或者在线显示。开源库PdfiumLib是Google Chrome的Pdfium项目的C++版本,允许开发者在自己的应用...

    编译原理 PPT 课件 PDF版.zip

    《编译原理》课程是计算机科学与技术专业的必修课程。本课程主要介绍程序设计语言编译程序构造的基本原理和设计方法,包括:编译程序概述、高级语言及其语法描述、词法分析、语法分析、属性文法和语法制导翻译、语义...

Global site tag (gtag.js) - Google Analytics