1+1 和 1*1 哪个大？为什么大模型都会在这个问题上出错？

nghon · 2024 年6 月 27 日 10:56

测试了今天刚发布的讯飞，一样的错误。

之前用过海螺，也是说这两者相等。

这些厂商是用的同一个数据集训练的原因？还是什么问题在这么简单的数学计算都不需要推理的题目上出现雷同的错误。这是模型架构的问题？

handsome · 2024 年6 月 27 日 11:02

我去，这也能错？

vchat · 2024 年6 月 27 日 11:06

神奇

MoYan · 2024 年6 月 27 日 11:24

GPT、Claude都没问题，暂不清楚你那个东西到底是啥情况

Aliang · 2024 年6 月 27 日 11:26

GPT4o

zhong_little · 2024 年6 月 27 日 11:32

还会自纠了

Clip_2024-06-27_19-32-10

marso · 2024 年6 月 27 日 11:34

和人家的比国内就是小辣机啊

kindmesdilabso · 2024 年6 月 27 日 11:35

深度求索

智谱

gpt3.5的回答也是说相等
4o倒是回答对了

谷歌的免费gemma7b

lueluelue · 2024 年6 月 27 日 11:36

难绷

cherrystone · 2024 年6 月 27 日 11:40

每个人的讯飞还不一样滴？

lueluelue · 2024 年6 月 27 日 11:41

重试

lueluelue · 2024 年6 月 27 日 11:41

rancy · 2024 年6 月 27 日 12:27

大模型确实不擅长数学运算，这都能翻车

roelauph · 2024 年6 月 27 日 12:38

国内起码有一个答对了

scrpr · 2024 年6 月 27 日 12:38

deepseek, qwen2, gpt4o都能答对，moonshot, gemini都答错了，claude3.5对了一半

Yearly · 2024 年6 月 27 日 12:42

Yearly · 2024 年6 月 27 日 12:43

kimi使用了计算器。。。

stevessr · 2024 年6 月 27 日 12:49

天工时间

YangguangZhou · 2024 年6 月 27 日 12:55

claude-3-opus-20240229
claude-3-sonnet-20240229
claude-3-haiku-20240307
yi-large
yi-large-preview
在竞技场里试了一圈这些模型是错的

YangguangZhou · 2024 年6 月 27 日 12:55

连gpt3.5都能答对

话题		回复	浏览量
大家认为国产大模型哪个最好用快问快答	13	502	2024 年2 月 24 日
大模型之间亦有差距人工智能	8	346	2024 年5 月 29 日
是不是所有的大语言模型的数学运算能力都很差啊？快问快答	41	636	2024 年5 月 28 日
国内这些模型质量怎么样人工智能	17	882	2024 年6 月 5 日
国产模型真能吹啊XDD 搞七捻三	16	1212	2024 年7 月 2 日