PDF 转 Markdown 效果对比

本帖测试的PDF是数字型,不是扫描型

应评论区佬友建议,添加一些对比(2025年4月21日)

Marker Mistral OCR MinerU Markitdown OlmOCR Doc2X Mathpix
使用方式 开源 api付费 api免费 开源 在线免费 开源 在线免费 开源 在线免费 付费 付费
限制 本地部署取决于硬件 文件最大50MB, 最多1000页 本地部署取决于硬件; 在线使用文件最大200MB, 最多600页 本地部署取决于硬件;在线使用文件最大200MB 本地部署取决于硬件;在线使用限制未知 取决于套餐 取决于套餐

补充:
Marker 的安装使用可以看这位佬友教程
OlmOCR 部署条件苛刻:20GB GPU RAM,30GB 空闲磁盘空间

省流

免费工具推荐使用:olmocr、mistral ocr
付费工具都不错,mathpix 效果更好

效果对比

Markitdown 输出的md无排版,因此直接排除

多图片

mineru、mistral、olmocr、doc2x、mathpix 效果差不多,marker 出错

详细

原:

marker:多图片时出现问题,单图片没事

mineru:

mistral:

olmocr:

doc2x:

mathpix:

表格和块识别

效果差不多

详细

原:

marker、mineru、mistral、olmocr、mathpix 效果差不多,都如下:

doc2x:

代码识别

marker、olmocr、mathpix 效果稳定优秀,doc2x 效果稳定但没有代码块包裹,mistral 效果不稳定,mineru 较差

详细

原:

marker:效果稳定

mineru:

mistral:效果不稳定,也常出现上面mineru的情况

olmocr:效果稳定

doc2x:效果稳定

mathpix:效果稳定

公式识别

olmocr、mathpix 最好, mineru、mistral、doc2x 也不错,marker 较差

详细

原:

marker:

mineru:

mistral:

olmocr:


doc2x:

mathpix:

52 Likes

复杂表格都处理的不太好、输出的MD表格都没有合并。

3 Likes

mistral 还行呀

3 Likes

请问其他方面的对比情况有吗?
比如:单个文件转换页数限制。好像mineru的在线版和mac客户端都是600页,本地部署、其他工具有没有页数限制?
再如:文字识别率,文本格式还原情况等。
谢谢。

2 Likes

我来看看,

3 Likes

佬可以试一下olmocr吗

1 Like

这是md本身的缺陷, 需要回退到html标签

4 Likes

微软那个markitdown有没有试过,打算自己部署一个

给一个网址

2 Likes

速度快,效果也不错

1 Like

感谢建议,等晚些有空时我对比一下

1 Like

ok,等晚些有空时我对比一下

没试过,等晚些有空时我对比一下 :rose:

目前项目上有做类似的功能,比较下来文字识别上,豆包的1.5 vision pro和谷歌gemini2.5pro效果最好,然后格式还原上claude不错,所以目前来说就是先走一遍豆包文字提取,然后文字加图片让claude进行格式处理,因为单独claude视觉能力不行,错别字很多。

4 Likes

我觉得应该说清楚是靠CNN之类的搞OCR的还是靠多模态llm搞的。后者能保证图片、文本格式是合理的,所以效果应该比前者好,但是成本、速度和资源开销肯定比非大模型的要差

佬友试一下doc2x和mathpix的,转markdown也挺好,我个人感觉doc2x比mathpix更好用一点

1 Like

佬求教,mistral的中文识别能力现在咋样?目前这几种谁的中文识别能力最好啊

感谢佬友分享

1 Like

olmocr很强

1 Like

感谢推荐,我测试的结果是 mathpix 比 doc2x 好些

我上传的PDF是数字型不是扫描型,所以中文识别能力咋样我不太清楚 :face_in_clouds:

1 Like