最近没事偶尔会用多种语言分别和提到的几个模型闲聊 (官方 ChatGPT app ‘无降智 4o/o3-mini’ w/ web search, 第三方 Claude 3.5 Sonnet w/ web search, 自建 Gemini 2.0 flash/thinking-exp),发现 ChatGPT 这方面现在是做的最差的,完全不像 GPT-4 刚出来那阵子那样健谈(虽然说的不一定对)。现在类似于你问 1,他回答你最多 1.5 (把你想表达的意思用另一番话讲出来+一点不痛不痒的东西),外加不停的反问,有点钢铁直男的那种感觉了,有时候我还以为我自己才是 LLM 呢。而且在上一句明确表达”无论我用哪种语言,请用 XX 语言回答我“之后,嘴上说好好好,接下来用英文提问的时候还是 balabala 回复你一段英文,所谓的记忆跑哪去了?
和 Gemini 和 Claude 闲聊的时候很少出现这样的低级错误,特别是 2.0 flash 的闲聊能力非常棒,比较有亲和力。Claude 虽然在中文方面稍显逊色,但切换到英文就没问题了,点到为止,每个解释都拳拳到肉,但绝不会给人一种疏离感。
拿同样一个 Apple 最近在英国停用高级数据保护的新闻的话题来做进一步比较(只问了 ChatGPT 4o 和 Claude 3.5 Sonnet,全程英文,打开网页搜索,问题意思大体相同,根据模型的实际回答来调整。)
我问为什么 Apple 要妥协,ChatGPT 的回答更像是新闻总结,没有什么实质的、自己的思考,继续追问可能的原因给出的回答更像是蜻蜓点水一般只触及到表面,整个回答味同嚼蜡。
而 Claude 总结了原因、经过、结果,给什么提示词就会结合网页搜索整合自己的思考给一个专业的回复,举了几个其他例子也会好好分析,偶尔还会来点反讽,体感比 ChatGPT 不知高到哪里去了。