目前哪个大模型的OCR能力更强?

目前想上传pdf文件把公式转换出来,但是不知道该用哪个模型准确度更高,也没有相关的benchmark,现在是gemini2.0flash更好吗?

33 Likes

通义千问的还不错,而且免费

23 Likes

Doubao vision 1.5 pro 很强,用起来感觉强过 Qwen 2.5 VL 72B

19 Likes

不计价格、降智等等因素的话,单论OCR能力最强,是哪个模型呢?

16 Likes

我们目前做的一个应用,合规原因只能用国内的,测试下来 Qwen2.5 VL 72B 和 Doubao 1.5 vision pro 是第一档,但具体哪个最强,还真不好说,可以直接去火山引擎开个对话测试效果

14 Likes

mistral号称最强
不过我个人还是喜欢gemini
建议你尝试,可能不同的应用场景效果不一样

4 Likes

用过了,一坨,不如simpletex识别的好,缺了好多东西,gemini目前还没试,明天试一下

1 Like

中文还是qwen和gemini吧

1 Like

之前latex我觉得克劳德最好

克劳德目前有个问题就是老是输出英文,我让他识别出来转换成markdown格式,转换倒是转换了,但是输出的时候成英文了,而且会截断

加强制提示词试试呢

中文不是很重要,公式和图表很重要 ୧⍢⃝୨

明天再试试了,今天克劳德体验很差

聽說最近新出的Mistral OCR識別公式能力很強,但中文弱

我之前试过gpt4o,还有克劳德3.5,3.5提取的格式基本都是全对的,就是要强制他输出他东西,现在3.7应该效果更好了

mark一下

试过了,公式里的角标都给我识别错了,很难说不是吹啊(o´Д`o)ノ

1 Like

当然是gemini,视觉+绘画都是榜一

1 Like

目前图像识别部分全用 gemini 来应付了,用来用去,自己感觉还是 gemini 顺手和熟悉 :bili_040:

试试开源的MinerU看看能不能满足你的需求, 离线部署在线服务都有

1 Like