本帖测试的PDF是数字型,不是扫描型
应评论区佬友建议,添加一些对比(2025年4月21日)
|
Marker |
Mistral OCR |
MinerU |
Markitdown |
OlmOCR |
Doc2X |
Mathpix |
使用方式 |
开源 api付费 |
api免费 |
开源 在线免费 |
开源 在线免费 |
开源 在线免费 |
付费 |
付费 |
限制 |
本地部署取决于硬件 |
文件最大50MB, 最多1000页 |
本地部署取决于硬件; 在线使用文件最大200MB, 最多600页 |
本地部署取决于硬件;在线使用文件最大200MB |
本地部署取决于硬件;在线使用限制未知 |
取决于套餐 |
取决于套餐 |
补充:
Marker 的安装使用可以看这位佬友教程
OlmOCR 部署条件苛刻:20GB GPU RAM,30GB 空闲磁盘空间
省流
免费工具推荐使用:olmocr、mistral ocr
付费工具都不错,mathpix 效果更好
效果对比
Markitdown 输出的md无排版,因此直接排除
多图片
mineru、mistral、olmocr、doc2x、mathpix 效果差不多,marker 出错
详细
原:
marker:多图片时出现问题,单图片没事
mineru:
mistral:
olmocr:
doc2x:
mathpix:
表格和块识别
效果差不多
详细
原:
marker、mineru、mistral、olmocr、mathpix 效果差不多,都如下:
doc2x:
代码识别
marker、olmocr、mathpix 效果稳定优秀,doc2x 效果稳定但没有代码块包裹,mistral 效果不稳定,mineru 较差
详细
原:
marker:效果稳定
mineru:
mistral:效果不稳定,也常出现上面mineru的情况
olmocr:效果稳定
doc2x:效果稳定
mathpix:效果稳定
公式识别
olmocr、mathpix 最好, mineru、mistral、doc2x 也不错,marker 较差
详细
原:
marker:
mineru:
mistral:
olmocr:
doc2x:
mathpix:
52 Likes
复杂表格都处理的不太好、输出的MD表格都没有合并。
3 Likes
slashkkk
(空气动力学)
4
请问其他方面的对比情况有吗?
比如:单个文件转换页数限制。好像mineru的在线版和mac客户端都是600页,本地部署、其他工具有没有页数限制?
再如:文字识别率,文本格式还原情况等。
谢谢。
2 Likes
微软那个markitdown有没有试过,打算自己部署一个
给一个网址
2 Likes
目前项目上有做类似的功能,比较下来文字识别上,豆包的1.5 vision pro和谷歌gemini2.5pro效果最好,然后格式还原上claude不错,所以目前来说就是先走一遍豆包文字提取,然后文字加图片让claude进行格式处理,因为单独claude视觉能力不行,错别字很多。
4 Likes
Ghidra
()
14
我觉得应该说清楚是靠CNN之类的搞OCR的还是靠多模态llm搞的。后者能保证图片、文本格式是合理的,所以效果应该比前者好,但是成本、速度和资源开销肯定比非大模型的要差
佬友试一下doc2x和mathpix的,转markdown也挺好,我个人感觉doc2x比mathpix更好用一点
1 Like
nicecanoe
(yangweili)
16
佬求教,mistral的中文识别能力现在咋样?目前这几种谁的中文识别能力最好啊
感谢推荐,我测试的结果是 mathpix 比 doc2x 好些
我上传的PDF是数字型不是扫描型,所以中文识别能力咋样我不太清楚 
1 Like