个人感觉 ChatGPT 在闲聊方面远不如其他大模型 (Gemini, Claude)

最近没事偶尔会用多种语言分别和提到的几个模型闲聊 (官方 ChatGPT app ‘无降智 4o/o3-mini’ w/ web search, 第三方 Claude 3.5 Sonnet w/ web search, 自建 Gemini 2.0 flash/thinking-exp),发现 ChatGPT 这方面现在是做的最差的,完全不像 GPT-4 刚出来那阵子那样健谈(虽然说的不一定对)。现在类似于你问 1,他回答你最多 1.5 (把你想表达的意思用另一番话讲出来+一点不痛不痒的东西),外加不停的反问,有点钢铁直男的那种感觉了,有时候我还以为我自己才是 LLM 呢。而且在上一句明确表达”无论我用哪种语言,请用 XX 语言回答我“之后,嘴上说好好好,接下来用英文提问的时候还是 balabala 回复你一段英文,所谓的记忆跑哪去了

和 Gemini 和 Claude 闲聊的时候很少出现这样的低级错误,特别是 2.0 flash 的闲聊能力非常棒,比较有亲和力。Claude 虽然在中文方面稍显逊色,但切换到英文就没问题了,点到为止,每个解释都拳拳到肉,但绝不会给人一种疏离感。

拿同样一个 Apple 最近在英国停用高级数据保护的新闻的话题来做进一步比较(只问了 ChatGPT 4o 和 Claude 3.5 Sonnet,全程英文,打开网页搜索,问题意思大体相同,根据模型的实际回答来调整。)

我问为什么 Apple 要妥协,ChatGPT 的回答更像是新闻总结,没有什么实质的、自己的思考,继续追问可能的原因给出的回答更像是蜻蜓点水一般只触及到表面,整个回答味同嚼蜡。
而 Claude 总结了原因、经过、结果,给什么提示词就会结合网页搜索整合自己的思考给一个专业的回复,举了几个其他例子也会好好分析,偶尔还会来点反讽,体感比 ChatGPT 不知高到哪里去了。

7 个赞

感觉好久没用gpt了 :tieba_087:

2 个赞

说实话 ,目前个人常用的 grok3 r1 gemini 3.5 没有gpt的位置

2 个赞

个人使用习惯
翻译、扩写、续写、总结等文字性工作:gpt-4o
代码、开发和一些技术上问答:claude-3.5-sonnet
爬数据:gemini-2.0系列(免费)
如果是发散性的问题,上述模型+Deepseek-R1这种都会试一下,不确定用哪一种
绝大多数我的使用场景基本都有明确的需求,只是让大模型作为一个基本工具帮忙实现,目前还没有发现其他更好的模型作为上位替代,观望grok3中

1 个赞

关于

这一点,在我使用过程中没有出现过这种情况

1 个赞

我更喜欢 Gemini 当翻译(同时调用多个版本),对比 ChatGPT 的翻译,感觉意思是有了,但细节做的不太好。

1 个赞

免费的我觉得还行 :thinking:

1 个赞

这我真没碰到过。我觉得4o的指令跟随能力还行啊,倒是gemini thinking很容易冒各种不同语言的文字出来

GPT 之前就是全能水桶模型,现在感觉比不上 Qwen 2.5 Max,等 4.5 看看什么效果吧。

是这样,现在都是别的问过了最后才会问gpt

他是主攻文本的好像

我觉得还行诶

我现在日常各类问题gemini最高优先级,claude代码最高优先。国内的qwen2.5 max是gemini的绝佳候选。 gpt生成的内容仅作保底参考。 dpr1更重要的是看它的思维过程,很有助益。

你用的是降智的chatgpt吗?我经常和 chatgpt闲聊,很喜欢,
反过来claude 3.5 聊天的时候就感觉怪怪的
尤其是现在 最新的chatgpt还会主动 发emoji 我很喜欢 :yum:

ds r1对发散性的问题有点惊艳的。

4o只会和稀泥……

grok默秒全

gemini还行吧

学院派的老头子罢了

闲聊不知道,跟人聊都觉得无聊。