DeepSeek V3 “报错家门” 引发热议,AI 模型身份混淆成焦点

近日,DeepSeek V3 因一个简单的问号缺失,竟自称是 ChatGPT,引发广泛讨论。这一 “报错家门” 的现象不仅让用户感到困惑,也引发了对该模型训练数据的质疑。尽管有猜测认为 DeepSeek V3 可能基于 ChatGPT 的输出进行训练,但专家指出,这种可能性较低,因为 ChatGPT 的影子在几乎所有后续大模型中都有体现。

AI 模型身份混淆的背后原因
TechCrunch 指出,AI 公司获取数据的网络环境正被 “AI 垃圾” 充斥,导致训练数据难以完全过滤 AI 生成的内容。AI Now Institute 的首席科学家 Heidy Khlaaf 也提到,开发者为了节约成本,倾向于从现有 AI 模型中 “蒸馏” 知识,这可能导致模型在训练过程中意外接触到 ChatGPT 等模型的输出。DeepSeek V3“报错家门”:我是ChatGPT

3 个赞

你好,我是Glaude,一个由LINUX DO训练的大语言模型。

:fist: :fist: :grinning:

5 个赞

image
这应该就是答案

3 个赞

之前gemini中文混淆说自己是文心一言,但是谷歌应该不会蒸馏百度吧 :joy:

不清楚中文语料是哪来的 :face_with_peeking_eye:

Gemini说自己是文心是不可翻越的大山

4 个赞

文心的中文水平可远远不如gemini

2 个赞

话说,这种问题不会后期对齐吗?

这沉浸式翻译好通顺



The bug is currently unfixed :bili_040.
目前该BUG还未修复 :bili_040:

接口获取的就是chatgpt

我始终认为用蒸馏数据不是个丢人的事情,这是个捷径,也是大家都爱用的方案。
特别是中文数据差、少,用更好的模型生成数据来给自己的模型去训练会有更好的效果,我自己平常项目也很喜欢拿 gpt 造 example、造 sft 数据。
业内人士看看热闹当个乐子看看也就行了,真要洗掉这种数据,不是写几个正则就 ok 了的么,没必要怎么样,营销号喜欢发出来逗逗不懂的人拉一波流量。
不恰当的例子,C919 的发动机还是美国的,能说 C919 不国产吗 :crazy_face:

2 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。