提的问题很简单:今天是几月几号,176天和180天后是几月几号,但是测试的结果让我有些吃惊,看来大模型的数学计算能力方面还是有很大进步空间的。
使用到的6个大模型分别是豆包、通义千问、Kimi、DeepSeek、Chat GPT以及Claude,下面是它们的回答:
-
豆包的回答
-
通义的回答
-
Kimi的回答
-
DeepSeek的回答
-
Chat GPT的回答
-
Claude的回答
-
最后是通过锤子的日期计算工具得到的结果
对比看来,好像还是Chat GPT > Claude = 通义 > Kimi > 豆包 > DeepSeek。
豆包的话我看它这个列出的计算过程好像也没错啊,是哪一步出现错误了(我被带到坑里了吗 )
另外是DeepSeek,我只是听起佬友们说写代码能力不错。时间显示去年应该是数据库没更新没联网吧,我又去计算了下对应的日期时间,也是差一天,差不太多。
最后的最后,我又把豆包的计算过程喂给了gpt,结果第一次见到它宕机了,一直在循环然后我就停止回答了,这种是啥情况嘞?