暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Marker:一款基于Python开发的Markdown转换工具 9.1k start

Linux技术宅 2024-06-02
775

点击👆Linux技术宅,关注我!!!



介绍

    Marker是一款基于Python语言为主开发的功能强大、性能出色的开源工具,旨在将PDF、EPUB和MOBI等格式的文档高效地转换为Markdown格式,从而提高文档的编辑和共享效率。
技术特点:
  1. 高速度与准确性:Marker在转换速度和准确性上进行了优化,据称比某些其他工具快10倍,并且在大多数文档上更准确,产生错误的风险较低。
  2. OCR技术:对于包含图像文本的PDF文档,Marker必要时采用OCR(Optical Character Recognition,光学字符识别)技术来识别并提取文本内容。
  3. 布局识别:Marker使用特制的LayoutLMv3模型来精确定位并识别文档内的表格、图表、标题、图片说明、页眉和页脚等元素。
  4. 列识别和排序:Marker再次运用一个定制版的LayoutLMv3模型,确保文档中的每一列都能按正确的顺序排列。
  5. 公式和代码处理:在处理文档中的公式和代码时,Marker能够借助Nougat等工具将公式图片转化为LaTeX代码,并采用启发式策略精确识别和调整代码以及表格内容。
  6. 文本清理与优化:Marker在文本清理与优化阶段,利用定制的T5ForTextClassification模型进行深度清洁,如剔除多余的空格和异常字符,确保生成的Markdown文档格式规范、内容纯净。
功能说明:
  • 支持多种 PDF 文档(优化适用于书籍和科学论文)

  • 移除页眉、页脚和其他杂项

  • 将大部分公式转化为 LaTeX

  • 格式化代码块和表格

  • 支持多种语言(尽管主要测试使用英语)。可在 settings.py
     中查看语言列表。

  • 可在 GPU、CPU 或 MPS 上运行



Site

  • GitHub:https://github.com/VikParuchuri/marker
  • GitCode:https://gitcode.com/VikParuchuri/marker/overview



快速部署

环境要求:
    • Python 3.9+
    • PyTorch
    • 如果使用的不是Mac或GPU机器,请安装CPU版。
      参考:https://pytorch.org/get-started/locally/

安装

    pip install marker-pdf
    复制


    分享、在看与点赞

    👇只要你点,我们就是胖友👇

    文章转载自Linux技术宅,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

    评论