首先附上:livebench中qwen-max和gemini 2.0 flash的语言能力评分
qwen max:
gemini 2.0 flash:
我问了一个关于职业规划的问题,同样的提示词问了这两个ai,并且把对话导出给其他ai看,让他们对这两个对话进行评分,deepseek—r1,kimi—k1.5,gemini 12-06都说gemini 2.0 flash回答得更好
这是我询问claude得出的原因:
此次实验存在幸存者偏差,也可能是因为这两个模型差距还不够大,并不能说明什么,但我觉得可以给佬友们一点启示:对于日常使用而言,能解决问题的ai就是好ai。欢迎佬友进行更多实验,也请佬友指出问题。
3 Likes
sonygod
(宋帝)
2
最近看法变了,各个国家有各个国家国歌,都有自己特色,大模型也一样,
2 Likes
KXG
(KXG)
3
不能只看评分,还要看体验,评分高不一定能力强,可能是专门对数据训练过,就像是国内厂商之前某段时间动不动就是“脚踩 GPT-3.5,拳打 GPT-4”,分数也很美观,实际体验不怎么样。我就更喜欢看 lmarena 的评分,毕竟是蒙眼投票投出来的。而且这里评分差距不大,所以确实看不出来什么。
2 Likes
赞成楼主,大模型不是一个整体,细分成多个领域后,每个模型都有各自的领域特色。所以排行榜可以作为入门,之后就可以逐步尝试其他模型了:写作,心理,人情味,幽默感,文化知识,科研能力,输出总量……
那么有没有一个碾压一切的AI可以直接使用呢?嗯,确实有的,现在去做几道数学题就能找到!
我刚刚试了gemini 2.0pro 和2.0 flash,然后叫其他ai评分,大多都认为2.0flash好一点,在lmarena中2.0 pro应该是碾压2.0 flash的,我觉得还是日常问题体现不出优势的原因,排行榜的评分感觉还是对于专业任务比较有参考性
现在没看出2.0pro好在哪了,感觉提示词也不遵循了
当然不是一定更强,不管什么都只能当作参考
而且哪怕测评集里一个87分一个85分,得分低的题目也不一定是同一道~
aptly3xa
(D_Reo)
9
平时最喜欢用的还是4o,写文章和回答我都感觉明显比别的模型舒服
1 Like
这就和考试一样,你能保证考90分的是真的会90%的考试内容么?
BlueSkyXN
(BlueSkyXN)
13
拿俩个垃圾比来比去有意思吗
分数只能看档次定位
像gemini flash和gpt4/4o/Omini这些放在已经是低端模型了,基本属于“无法完成任务”的水平,也就做做一些简单的、忽悠忽悠傻子的任务,用了就是浪费时间
要解决问题就需要高性能模型,目前主要是O1、Gemini2.0ProExp、Deepseek- R1、Claude3.5S
但是就算同样的语法在不同模型下有巨大差异,就比如Gemini极度不可控、随机性极强,Claude要稳定很多
3 Likes
就我日常使用而言,一般Claude+Google能完成绝大部份的工作任务了,剩余的一部分查阅文档就完事了。
你不用prompt问几个问题,浏览一下输出的结果就大概知道这个模型合不合适辅助你当下的工作了
6512345
(65)
15
有人想给你讲题,一个人60分,另一个人90分,两个人都及格了,你愿意哪个人给你讲题?
system
(system)
Closed
16
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。