知乎:o3,o4 mini模型对中文语言出现“高度降智”,可能是“新降智科技”或者openAI训练不佳

3 Likes

中文交流不如英文的确有着感觉,还以为是错觉呢

@Sam_Altman

刚刚试了我的一个号降智了另一个正常的

文中的等 gemini 2.5 flash 是啥意思?

还有专门针对中文的?

如果真的把精力花在中文降智而不是提高智能 那无敌了

1 Like

有试过法语、德语、日语等非英语测试集吗?专门针对中文也太不要脸了

两种可能

第一:模型没有完善,对小语种的微调或强化训练,为了赶时间上线,应对Gemini-2.5的竞争。

第二:对中文用户,上了最新的降智科技。

4 Likes

我觉得是第一种 急死了

那个是官网测的。

照理说,API应该不存在降智。

等论坛的结果。

等google来痛扁oai :100:

他可能期待2.5 flash的表现,尤其是推理能力。

oai搞这个是专业的

不太可能吧,毕竟奥特曼的研发预算也是真金白银啊

在API上用繁体试试?

用了一个多小时的api渠道o3,主要是言语类的问题,感觉不怎么理想。
还得gemini才能解决表达和思维上的一些问题。
我再试试吧。

1 Like

可能是app端酱汁了吧,因为模型本身的多语言能力是提升了的。

为了评估模型的多语言能力,我们聘请了专业的人类翻译员将MMLU的测试集翻译成13种语言。如下所示,OpenAI o3相较于OpenAI o1在多语言能力上有所提升,而OpenAI o4-mini相较于OpenAI o3-mini也有所改进。

Ref: OpenAI o3 and o4-mini System Card

2 Likes

从思考模型出来,一直都有对中文降智。之前论坛里说的检测所在地点的时间的新闻可以看看,我用中英日三个不同号(日本IP),最离谱的是日语比英语还要稳。。。。

你可以亲自试试就知道了,两个号,一个号用英语,一个号用中文,有惊喜

美西家宽,中国工作时间用中文提问o1pro思考时间基本上两三分钟,到晚上美国工作时间提问能到10分钟

1 Like

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。