gemini-2.0-flash-thinking-exp-01-21 强的离谱

phlegm · 2025 年3 月 16 日 13:35

在数学题方面，有一些问题R1答对，O1不对，O1对R1不对，有些Groq对，有些Groq不对，把这些问题全部给gemini-2.0-flash-thinking-exp-01-21测试，对到完，没有开code execution，还没有测试代码(代码还是用claude 3.7 sonnet吧)，没有时间，有时间的佬可以去测试。网页版卡又慢，aistudio比较好

网页版的很烂

如果thinking就不要开code execution了，开code execution回答反而会错

Overall： 
math: Gemini 
Instruction following: Gemini
Multi Turn: Gemini
Creative Writing: Gemini
Coding: Gemini
hard prompts: Gemini
hard prompts(English): Gemini
Longer Query: Gemini
English: Gemini
Chinese: Gemini
Exclude Ties: Gemini
Exclude Short Query (<5 tokens):Gemini
Exclude Refusal: Gemini

用claude测试groq 和 gemini，清一色全部都是gemini获胜

sniao · 2025 年3 月 16 日 13:43

gemini确实好用

Beronita · 2025 年3 月 16 日 13:48

确实好用，其实 gemini 2 pro也不错（你可能用过他的preview版，就是传说中的gemini exp 1206）

phlegm · 2025 年3 月 16 日 13:49

中文作文/理解题那种需要creative（创意）的，使用Deepseek R1（R1 的幻觉实在是高）
中文搜索或者其他，要根据作文的，不要用deepseek，他会瞎编，用Grok-3
其他的除了代码全部使用 Gemini 2.0 Flash Thinking Experimental 01-21
代码用claude 3.7 sonnet

phlegm · 2025 年3 月 16 日 13:50

全部都测试了，我觉得Gemini 2.0 Flash Thinking Experimental 01-21比Gemini 2.0 pro 好，因为pro没有thinking，今年（前半年）google重头戏就是2.0pro 的thinking了

lxyz · 2025 年3 月 16 日 13:51

gemini网页版没看见这个模型啊？

phlegm · 2025 年3 月 16 日 13:51

别在网页版用，网页版我感觉比AI studio的弱了很多
AI studio：https://aistudio.google.com/

Rickywong · 2025 年3 月 16 日 13:52

试一试看看

voi · 2025 年3 月 16 日 13:53

和 Gemini 2.0 Pro Experimental 02-05 比起来如何呢？

Beronita · 2025 年3 月 16 日 13:53

两个都是不错的模型哈哈哈，我都很喜欢。我跟goolge的人聊了一下，他建议，可以把2flash thinking的思考发给2 pro，哈哈哈

phlegm · 2025 年3 月 16 日 13:54

先别用pro，用thinking experiment先，等pro 出thinking版本

phlegm · 2025 年3 月 16 日 13:54

这不就是翻版的deepclaude 吗 xd

sniao · 2025 年3 月 16 日 13:56

代码的话，我也爱用gemini，claude我注册过一个账号，没到3分钟就封禁了，我就没兴趣了！
平常开发软件或者网页过程中，一些函数或者小功能我会让gemini完成，基本上都是一遍过，而其他的AI，越写越傻

phlegm · 2025 年3 月 16 日 13:56

claude 不可以使用“正常渠道”

sniao · 2025 年3 月 16 日 13:57

一开始主要是嫌麻烦就没用，其他能用的AI里多方对比后gemini好用，我就一直顺手用gemini了

phlegm · 2025 年3 月 16 日 13:59

claude 就是写前端UI比较好看

zzgreg · 2025 年3 月 16 日 13:59

之前先用了gemini写的代码，后来有机会用了claude后才发现什么是真正的王者

sniao · 2025 年3 月 16 日 14:00

ok，后面我也玩玩

phlegm · 2025 年3 月 16 日 14:01

代码确实使用claude，但是写作和其他，还是使用gemini或者grok吧

leeorz · 2025 年3 月 16 日 14:01

aistudio 不稳定

话题		回复	浏览量
区分题库已经完成对Gemini 2.5 Pro的测试，结果为全对，2.5Pro在未来Livebench的成绩应该会很亮眼开发调优人工智能	55	1522	2025 年3 月 26 日
大佬们，Grok3使用体验怎么样搞七捻三人工智能 , 快问快答 , 纯水	62	1389	2025 年3 月 20 日
OAI前脚刚推出O1满血版，Gemini Exp 1206就来了前沿快讯 Gemini , 人工智能	54	2404	2024 年12 月 8 日
大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）文档共建人工智能	105	3099	2025 年3 月 28 日
一道小五奥数题，o1，Kimi数学版，豆包全军覆没，我懵了开发调优人工智能	69	2358	2025 年3 月 8 日

gemini-2.0-flash-thinking-exp-01-21 强的离谱

相关话题