目前想上传pdf文件把公式转换出来,但是不知道该用哪个模型准确度更高,也没有相关的benchmark,现在是gemini2.0flash更好吗?
33 Likes
通义千问的还不错,而且免费
23 Likes
Doubao vision 1.5 pro 很强,用起来感觉强过 Qwen 2.5 VL 72B
19 Likes
不计价格、降智等等因素的话,单论OCR能力最强,是哪个模型呢?
16 Likes
我们目前做的一个应用,合规原因只能用国内的,测试下来 Qwen2.5 VL 72B 和 Doubao 1.5 vision pro 是第一档,但具体哪个最强,还真不好说,可以直接去火山引擎开个对话测试效果
14 Likes
mistral号称最强
不过我个人还是喜欢gemini
建议你尝试,可能不同的应用场景效果不一样
4 Likes
用过了,一坨,不如simpletex识别的好,缺了好多东西,gemini目前还没试,明天试一下
1 Like
中文还是qwen和gemini吧
1 Like
之前latex我觉得克劳德最好
克劳德目前有个问题就是老是输出英文,我让他识别出来转换成markdown格式,转换倒是转换了,但是输出的时候成英文了,而且会截断
加强制提示词试试呢
中文不是很重要,公式和图表很重要 ୧⍢⃝୨
明天再试试了,今天克劳德体验很差
聽說最近新出的Mistral OCR識別公式能力很強,但中文弱
我之前试过gpt4o,还有克劳德3.5,3.5提取的格式基本都是全对的,就是要强制他输出他东西,现在3.7应该效果更好了
mark一下
试过了,公式里的角标都给我识别错了,很难说不是吹啊(o´Д`o)ノ
1 Like
当然是gemini,视觉+绘画都是榜一
1 Like
目前图像识别部分全用 gemini 来应付了,用来用去,自己感觉还是 gemini 顺手和熟悉
试试开源的MinerU看看能不能满足你的需求, 离线部署在线服务都有
1 Like