Marker能做什么?
- 多格式支持:可以转换PDF、图片、PPT、Word、Excel、HTML、EPUB等多种文件格式
- 高质量转换:完美保留表格、公式、链接、代码块、参考文献等格式
- 图片提取:自动提取并保存文档中的图片
- 去除杂项:自动清理页眉页脚等干扰元素
- 多种输出:可输出为Markdown、JSON或HTML格式
- 性能卓越:相对于Llamaparse和Mathpix等类似功能类库,转换速度快、准确率高,可在GPU、CPU甚至MPS上运行,
- 另外本人也用MinerU,Marker用的更多一点
效果
- 本人转过很多pdf,包括ocr的pdf,效果非常好
- 最新版还有“混合模式”,使用
--use_llm
参数,可在 Marker 的基础上使用 LLM (大型语言模型)。这将实现跨页合并表格、处理行内数学公式、正确格式化表格以及从表单中提取值等功能。它可以使用任何 Gemini 或 Ollama 模型。默认情况下,它使用 gemini-2.0-flash 模型。准确率会进一步提升,特别是在处理复杂表格时效果显著。 - 英文pdf可以直接导出html,chrome下的豆包或cici设置为支持本地文件,可以免费快速的翻译
如何安装使用?
# 建立虚拟环境
python -m venv marker-venv
marker-venv\Scripts\activate
# 支持本地GPU,没有本地GPU的可以不装
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# 安装marker,这是最核心的,上面的步骤都不做也没关系
pip install marker-pdf[full] # 安装完整版以支持所有文档类型
# 基本使用命令
marker_single /path/to/file.pdf # 转换单个文件
marker /path/to/input/folder --workers 4 # 批量转换
如果要可交互的GUI界面,还要多一个步骤,安装steamlit
pip install streamlit
marker_gui #启动可交互界面
主页地址
Github: GitHub - VikParuchuri/marker: Convert PDF to markdown + JSON quickly with high accuracy
官方还提供了API服务:https://www.datalab.to/
同类软件评估
目前没有统一的pdf转换效果评估,搜了一下,有人用chatgpt尝试测试了一下,估计不太靠谱
dantetemplar/pdf-extraction-agenda: Overview of pipelines related to PDF document processing.
- 粗体表示最佳结果
- “-” 表示未评估
表示由开发者自评
- 可以看REAdoc、 Actualize.pro两个综合指标