gemini 2.5 pro,免费ai studio只有50次,期待1500次的gemini 2.5 falsh
说实话v3 0324都打不过,在中文领域
先出pro了还会出flash吗
这俩有啥区别,一个推理,一个不能推理吗
各有胜负吧,这个题目就是gemini2.5pro胜于dsv3的
参数量大小的区别(虽然没公开,但是参数量越大,能力越强,也越费算力)
大厂都卷起来吧
感觉有刷分嫌疑,等过几天看看
gemini2.5pro总的来说还是最强的(目前,全部都在卷有可能明天就被超越了)。中文方面才是各有胜负,如果用英文,gemini2.5pro就是碾压式的获胜(吧)。逻辑方面gemini2.5pro还是很强的。gemini2.5pro,但是很不公平,拿一个非推理模型,和一个推理模型比较。。。
2.5pro的64k输出太爽了,超长代码也能一次输出完
就算要公平点比推理,ds-r1也答不上来啊;
或者拿不推理的gemini2.0proexp比也行,这个不推理也能答对。
ds-v3作为底模和顶尖模型还是有差距的,大概是语料差距
英文语料在中文上面还是比较强的。而且gemini2.5pro真的很强。现在的ds r1还用着以前的ds v3,等更新吧,但是不觉得会比gemini2.5pro强。r1的幻觉真的很强。感觉中文语料比较适合创意性的内容。而英文语料训练的是比较学术的,固定的,有逻辑的。
有的,谷歌老爱刷了,而且你看votes数量比下面那些低好多,只能说他确实某方面确实变强了 但是,你要说他全方位赢了下面那些模型,不太可能。。
等一个月在看 ,比较刚出,gemini 2.0 flash thinking的那个votes也是很多,感觉gemini2.5pro就算vote多了也是第一
LM Arena我一直觉得是和个人体验偏离挺大的……
可以自己测试,我自己测试了是觉得,在“逻辑能力“上来说gemini2.5pro是遥遥领先的
我也在等一个flash;限量是一方面,另一方面是个人感觉很多场合非思考模型要更实用。
就是现在各家都一窝蜂的上思考……挺烦人的。
我简单的测试下来确实挺强的;我只是说,LM Arena这个东西可能不是太靠谱,不太能当论据。
怕有一天全部都上thinking模型,然后没有非思考模型。我的翻译器,还有一些快速评论,测试的模型,就很难了
thinking还是不能那种瞬间回答,科学数学这种理科的可以慢思考,但是翻译还是其他的,思考就有点太过分了吧