Marker -支持pdf、epub、word等多格式文档转换神器

:rocket: Marker能做什么?

  • 多格式支持:可以转换PDF、图片、PPT、Word、Excel、HTML、EPUB等多种文件格式
  • 高质量转换:完美保留表格、公式、链接、代码块、参考文献等格式
  • 图片提取:自动提取并保存文档中的图片
  • 去除杂项:自动清理页眉页脚等干扰元素
  • 多种输出:可输出为Markdown、JSON或HTML格式
  • 性能卓越:相对于Llamaparse和Mathpix等类似功能类库,转换速度快、准确率高,可在GPU、CPU甚至MPS上运行,
  • 另外本人也用MinerU,Marker用的更多一点

效果

  • 本人转过很多pdf,包括ocr的pdf,效果非常好
  • 最新版还有“混合模式”,使用 --use_llm 参数,可在 Marker 的基础上使用 LLM (大型语言模型)。这将实现跨页合并表格、处理行内数学公式、正确格式化表格以及从表单中提取值等功能。它可以使用任何 Gemini 或 Ollama 模型。默认情况下,它使用 gemini-2.0-flash 模型。准确率会进一步提升,特别是在处理复杂表格时效果显著。
  • 英文pdf可以直接导出html,chrome下的豆包或cici设置为支持本地文件,可以免费快速的翻译

:laptop: 如何安装使用?

# 建立虚拟环境
python -m venv marker-venv 
marker-venv\Scripts\activate 
# 支持本地GPU,没有本地GPU的可以不装
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 
# 安装marker,这是最核心的,上面的步骤都不做也没关系
pip install marker-pdf[full]  # 安装完整版以支持所有文档类型

# 基本使用命令
marker_single /path/to/file.pdf  # 转换单个文件
marker /path/to/input/folder --workers 4  # 批量转换

如果要可交互的GUI界面,还要多一个步骤,安装steamlit

pip install streamlit
marker_gui #启动可交互界面

:pushpin: 主页地址

Github: GitHub - VikParuchuri/marker: Convert PDF to markdown + JSON quickly with high accuracy
官方还提供了API服务:https://www.datalab.to/

同类软件评估

目前没有统一的pdf转换效果评估,搜了一下,有人用chatgpt尝试测试了一下,估计不太靠谱
dantetemplar/pdf-extraction-agenda: Overview of pipelines related to PDF document processing.

  • 粗体表示最佳结果
  • “-” 表示未评估
  • :warning: 表示由开发者自评
  • 可以看REAdoc、 Actualize.pro两个综合指标
34 Likes

可以离线使用吗?

2 Likes

感谢佬友分享

2 Likes

感谢大佬推荐

2 Likes

嗯,完全支持离线

pip install marker-pdf[full]  # 安装完整版以支持所有文档类型

# 基本使用命令
marker_single /path/to/file.pdf  # 转换单个文件
marker /path/to/input/folder --workers 4  # 批量转换

和mineru 比怎么样呢

感谢推荐。

我其实mineru也装了,现在更喜欢用marker

一直在:Downloading layout model… 进度为0

转数学公式的文档效果如何?

不懂就问 我想从pdf转为word的话,这个是不是不支持啊,有什么好方法吗

感谢佬的分享,这个看起来有点东西,装了研究研究

我觉得大概率需要代理,可以设置一下代理,也可以参考一下这个
I want to connect to mirror website of huggingface instead of huggingface itself. · Issue #436 · VikParuchuri/marker

不支持word,支持pdf、epub等多格式转为markdwon、json和html,Marker和MinerU这类软件是将非结构化的PDF文档转换为可处理的结构化格式,便于后续数据分析,全文检索,统一整合到知识库或数据库中或与其他工具集成,用于自动化文档处理流。

你的需求可以用Foxit PDF Editor、acrobat等软件解决,以可以安装
Stirling-Tools/Stirling-PDF: #1 Locally hosted web application that allows you to perform various operations on PDF files

多谢大佬

没有 GPU 的话运行的速度如何?

pdf干了啥天怒人怨的

各个都想转它

我昨晚用了,效果很一般,ocr这块不行,错字很多,不如用千问那个ocr,那个ai识别效果很好,就水印都能用,就是只能识别图片。

1 Like

没有win版吗?其他的不会用啊

佬哥,向您请教个问题:上传epub 出错如何解决?(上传 pdf 是没有问题的,但传了 epub 之后就报错)