我本来想通过Qwen2.5-VL-72B-Instruct识别数学题目,然后让deepseek来回答,没想到一上来,qwen就自己做了,还做了个错的。
后面喊他好好描述清楚,结果他想了个好主意,用图形来表示,只是,想法很好,识别的东西不对啊。当我复制给deepseek的时候,ds估计也是蒙圈的。
但是他做对了,就很离谱!
题目:
我本来想通过Qwen2.5-VL-72B-Instruct识别数学题目,然后让deepseek来回答,没想到一上来,qwen就自己做了,还做了个错的。
后面喊他好好描述清楚,结果他想了个好主意,用图形来表示,只是,想法很好,识别的东西不对啊。当我复制给deepseek的时候,ds估计也是蒙圈的。
但是他做对了,就很离谱!
题目:
这个题目很有意思,测试了gemini (2.0-flash 001),也是直接二话不说 做成 D
让它仔细描述下题目,结论就很接近
从正面看,应该看到一个类似于 “L” 形的排列,底部是三个正方形,左边和中间的正方形上方各有一个正方形
也用英语测试下,这个模型确实看不懂
可能是对正方体的识别不准确?
后续:很有趣的是,当我在网页端使用qwenvl问的时候,他就可以回答正确。
要多试几次,一次正确也不能代表每次都正确
sota o1图像识别能力也不咋的,还是老老实实用文字吧
这么厉害
能识别 cube ,但是对 column 和 row 的理解是混乱的,且相互矛盾,(在英语里面,不像中文的行,列,是比较确定的,column 是竖的,row的横的,能比较清晰看出问题),可能 目前这个 3维的几何问题,对大模型 都算是比较难的
这题怎么会错呢
厉害
对啊,按说是不应该的。
有可能,但是看谷歌、网页端都可以的。
感觉以后针对大模型的测试,还是要多试几次才能看出是不是真的能做对。
ai的多模态对于识别图像很差劲,比如说电路图,很难分析正确。最好还是用自然语言准确描述出来。