点击👆:Linux技术宅,关注我!!!
高速度与准确性:Marker在转换速度和准确性上进行了优化,据称比某些其他工具快10倍,并且在大多数文档上更准确,产生错误的风险较低。 OCR技术:对于包含图像文本的PDF文档,Marker必要时采用OCR(Optical Character Recognition,光学字符识别)技术来识别并提取文本内容。 布局识别:Marker使用特制的LayoutLMv3模型来精确定位并识别文档内的表格、图表、标题、图片说明、页眉和页脚等元素。 列识别和排序:Marker再次运用一个定制版的LayoutLMv3模型,确保文档中的每一列都能按正确的顺序排列。 公式和代码处理:在处理文档中的公式和代码时,Marker能够借助Nougat等工具将公式图片转化为LaTeX代码,并采用启发式策略精确识别和调整代码以及表格内容。 文本清理与优化:Marker在文本清理与优化阶段,利用定制的T5ForTextClassification模型进行深度清洁,如剔除多余的空格和异常字符,确保生成的Markdown文档格式规范、内容纯净。
支持多种 PDF 文档(优化适用于书籍和科学论文)
移除页眉、页脚和其他杂项
将大部分公式转化为 LaTeX
格式化代码块和表格
支持多种语言(尽管主要测试使用英语)。可在
settings.py
中查看语言列表。可在 GPU、CPU 或 MPS 上运行
GitHub:https://github.com/VikParuchuri/marker GitCode:https://gitcode.com/VikParuchuri/marker/overview
Python 3.9+ PyTorch
安装:
pip install marker-pdf
复制
分享、在看与点赞
👇只要你点,我们就是胖友👇
文章转载自Linux技术宅,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
[MYSQL] 服务器出现大量的TIME_WAIT, 每天凌晨就清零了
大大刺猬
143次阅读
2025-04-01 16:20:44
mysql提升10倍count(*)的神器
大大刺猬
123次阅读
2025-03-21 16:54:21
演讲实录|分布式 Python 计算服务 MaxFrame 介绍及场景应用方案
阿里云大数据AI技术
123次阅读
2025-03-17 13:27:37
官宣,Milvus SDK v2发布!原生异步接口、支持MCP、性能提升
ZILLIZ
96次阅读
2025-04-02 09:34:13
[MYSQL] query_id和STATEMENT_ID在不同OS上的关系
大大刺猬
67次阅读
2025-03-26 19:08:13
DataWorks :Data+AI 一体化开发实战图谱
阿里云大数据AI技术
46次阅读
2025-03-19 11:00:55
国密算法介绍
漫步者
44次阅读
2025-03-21 09:20:39
如何使用 RisingWave 和 PuppyGraph 构建高性能实时图分析框架
RisingWave中文开源社区
37次阅读
2025-03-18 10:49:54
WingPro for Mac 强大的Python开发工具 v10.0.9注册激活版
一梦江湖远
33次阅读
2025-03-29 10:33:27
python操作MySQL数据库
怀念和想念
29次阅读
2025-03-30 23:22:07