phlegm
(K)
1
在数学题方面,有一些问题R1答对,O1不对,O1对R1不对,有些Groq对,有些Groq不对,把这些问题全部给gemini-2.0-flash-thinking-exp-01-21测试,对到完,没有开code execution,还没有测试代码(代码还是用claude 3.7 sonnet吧),没有时间,有时间的佬可以去测试。网页版卡又慢,aistudio比较好
网页版的很烂
如果thinking就不要开code execution了,开code execution回答反而会错
Overall:
math: Gemini
Instruction following: Gemini
Multi Turn: Gemini
Creative Writing: Gemini
Coding: Gemini
hard prompts: Gemini
hard prompts(English): Gemini
Longer Query: Gemini
English: Gemini
Chinese: Gemini
Exclude Ties: Gemini
Exclude Short Query (<5 tokens):Gemini
Exclude Refusal: Gemini
用claude测试groq 和 gemini,清一色全部都是gemini获胜
27 个赞
确实好用,其实 gemini 2 pro也不错(你可能用过他的preview版,就是传说中的gemini exp 1206)
5 个赞
phlegm
(K)
4
中文作文/理解题那种需要creative(创意)的,使用Deepseek R1(R1 的幻觉实在是高)
中文搜索或者其他,要根据作文的,不要用deepseek,他会瞎编,用Grok-3
其他的除了代码全部使用 Gemini 2.0 Flash Thinking Experimental 01-21
代码用claude 3.7 sonnet
4 个赞
phlegm
(K)
5
全部都测试了,我觉得Gemini 2.0 Flash Thinking Experimental 01-21比Gemini 2.0 pro 好,因为pro没有thinking,今年(前半年)google重头戏就是2.0pro 的thinking了
6 个赞
phlegm
(K)
7
别在网页版用,网页版我感觉比AI studio的弱了很多
AI studio:https://aistudio.google.com/
8 个赞
voi
(voi)
9
和 Gemini 2.0 Pro Experimental 02-05 比起来如何呢?
6 个赞
两个都是不错的模型哈哈哈,我都很喜欢。我跟goolge的人聊了一下,他建议,可以把2flash thinking的思考发给2 pro,哈哈哈
6 个赞
phlegm
(K)
11
先别用pro,用thinking experiment先,等pro 出thinking版本
7 个赞
sniao
(傻鸟)
13
代码的话,我也爱用gemini,claude我注册过一个账号,没到3分钟就封禁了,我就没兴趣了!
平常开发软件或者网页过程中,一些函数或者小功能我会让gemini完成,基本上都是一遍过,而其他的AI,越写越傻
4 个赞
sniao
(傻鸟)
15
一开始主要是嫌麻烦就没用,其他能用的AI里多方对比后gemini好用,我就一直顺手用gemini了
zzgreg
(zzgreg)
17
之前先用了gemini写的代码,后来有机会用了claude后才发现什么是真正的王者
phlegm
(K)
19
代码确实使用claude,但是写作和其他,还是使用gemini或者grok吧