测试了今天刚发布的讯飞,一样的错误。
之前用过海螺,也是说这两者相等。
这些厂商是用的同一个数据集训练的原因?还是什么问题在这么简单的数学计算都不需要推理的题目上出现雷同的错误。这是模型架构的问题?
测试了今天刚发布的讯飞,一样的错误。
之前用过海螺,也是说这两者相等。
这些厂商是用的同一个数据集训练的原因?还是什么问题在这么简单的数学计算都不需要推理的题目上出现雷同的错误。这是模型架构的问题?
我去,这也能错?
神奇
GPT4o
还会自纠了
和人家的比 国内就是小辣机啊
难绷
重试
大模型确实不擅长数学运算,这都能翻车
claude-3-opus-20240229
claude-3-sonnet-20240229
claude-3-haiku-20240307
yi-large
yi-large-preview
在竞技场里试了一圈这些模型是错的
连gpt3.5都能答对