gemini-2.0-flash-thinking-exp-01-21 强的离谱

在数学题方面,有一些问题R1答对,O1不对,O1对R1不对,有些Groq对,有些Groq不对,把这些问题全部给gemini-2.0-flash-thinking-exp-01-21测试,对到完,没有开code execution,还没有测试代码(代码还是用claude 3.7 sonnet吧),没有时间,有时间的佬可以去测试。网页版卡又慢,aistudio比较好

网页版的很烂

如果thinking就不要开code execution了,开code execution回答反而会错

Overall: 
math: Gemini 
Instruction following: Gemini
Multi Turn: Gemini
Creative Writing: Gemini
Coding: Gemini
hard prompts: Gemini
hard prompts(English): Gemini
Longer Query: Gemini
English: Gemini
Chinese: Gemini
Exclude Ties: Gemini
Exclude Short Query (<5 tokens):Gemini
Exclude Refusal: Gemini

用claude测试groq 和 gemini,清一色全部都是gemini获胜

27 个赞

gemini确实好用

3 个赞

确实好用,其实 gemini 2 pro也不错(你可能用过他的preview版,就是传说中的gemini exp 1206)

5 个赞

中文作文/理解题那种需要creative(创意)的,使用Deepseek R1(R1 的幻觉实在是高)
中文搜索或者其他,要根据作文的,不要用deepseek,他会瞎编,用Grok-3
其他的除了代码全部使用 Gemini 2.0 Flash Thinking Experimental 01-21
代码用claude 3.7 sonnet

4 个赞

全部都测试了,我觉得Gemini 2.0 Flash Thinking Experimental 01-21比Gemini 2.0 pro 好,因为pro没有thinking,今年(前半年)google重头戏就是2.0pro 的thinking了

6 个赞

gemini网页版没看见这个模型啊?

5 个赞

别在网页版用,网页版我感觉比AI studio的弱了很多
AI studio:https://aistudio.google.com/

8 个赞

试一试看看

3 个赞

和 Gemini 2.0 Pro Experimental 02-05 比起来如何呢?

6 个赞

两个都是不错的模型哈哈哈,我都很喜欢。我跟goolge的人聊了一下,他建议,可以把2flash thinking的思考发给2 pro,哈哈哈

6 个赞

先别用pro,用thinking experiment先,等pro 出thinking版本

7 个赞

这不就是翻版的deepclaude 吗 xd

6 个赞

代码的话,我也爱用gemini,claude我注册过一个账号,没到3分钟就封禁了,我就没兴趣了!
平常开发软件或者网页过程中,一些函数或者小功能我会让gemini完成,基本上都是一遍过,而其他的AI,越写越傻

4 个赞

claude 不可以使用“正常渠道”

2 个赞

一开始主要是嫌麻烦就没用,其他能用的AI里多方对比后gemini好用,我就一直顺手用gemini了

claude 就是写前端UI比较好看

3 个赞

之前先用了gemini写的代码,后来有机会用了claude后才发现什么是真正的王者

ok,后面我也玩玩

代码确实使用claude,但是写作和其他,还是使用gemini或者grok吧

aistudio 不稳定