DeepSeek V3 “报错家门” 引发热议，AI 模型身份混淆成焦点

Twilight9 · 2024 年12 月 29 日 06:22

近日，DeepSeek V3 因一个简单的问号缺失，竟自称是 ChatGPT，引发广泛讨论。这一 “报错家门” 的现象不仅让用户感到困惑，也引发了对该模型训练数据的质疑。尽管有猜测认为 DeepSeek V3 可能基于 ChatGPT 的输出进行训练，但专家指出，这种可能性较低，因为 ChatGPT 的影子在几乎所有后续大模型中都有体现。

AI 模型身份混淆的背后原因
TechCrunch 指出，AI 公司获取数据的网络环境正被 “AI 垃圾” 充斥，导致训练数据难以完全过滤 AI 生成的内容。AI Now Institute 的首席科学家 Heidy Khlaaf 也提到，开发者为了节约成本，倾向于从现有 AI 模型中 “蒸馏” 知识，这可能导致模型在训练过程中意外接触到 ChatGPT 等模型的输出。DeepSeek V3“报错家门”：我是ChatGPT

banlan · 2024 年12 月 29 日 06:26

你好，我是Glaude，一个由LINUX DO训练的大语言模型。

lezishen · 2024 年12 月 29 日 06:32

这应该就是答案

cohen8s · 2024 年12 月 29 日 07:14

之前gemini中文混淆说自己是文心一言，但是谷歌应该不会蒸馏百度吧

Twilight9 · 2024 年12 月 29 日 07:15

不清楚中文语料是哪来的

marre · 2024 年12 月 29 日 07:16

Gemini说自己是文心是不可翻越的大山

cnm · 2024 年12 月 29 日 07:16

文心的中文水平可远远不如gemini

curry · 2024 年12 月 31 日 07:38

话说，这种问题不会后期对齐吗？

3.141592653 · 2024 年12 月 31 日 07:42

这沉浸式翻译好通顺

solitude · 2024 年12 月 31 日 07:47

The bug is currently unfixed :bili_040.
目前该BUG还未修复

MrliuXing520 · 2024 年12 月 31 日 07:48

接口获取的就是chatgpt

zliang.std · 2024 年12 月 31 日 07:53

我始终认为用蒸馏数据不是个丢人的事情，这是个捷径，也是大家都爱用的方案。
特别是中文数据差、少，用更好的模型生成数据来给自己的模型去训练会有更好的效果，我自己平常项目也很喜欢拿 gpt 造 example、造 sft 数据。
业内人士看看热闹当个乐子看看也就行了，真要洗掉这种数据，不是写几个正则就 ok 了的么，没必要怎么样，营销号喜欢发出来逗逗不懂的人拉一波流量。
不恰当的例子，C919 的发动机还是美国的，能说 C919 不国产吗

system · 2025 年1 月 30 日 07:53

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
deepseek-v3 是chatgpt？搞七捻三人工智能 , 快问快答	27	734	2025 年1 月 27 日
Deepseek"越狱"？搞七捻三人工智能	10	488	2025 年1 月 30 日
Deepseek是个什么？搞七捻三人工智能 , 快问快答	7	264	2025 年1 月 31 日
deepseek怎么感觉傻傻的... 搞七捻三人工智能	31	630	2025 年1 月 27 日
OpenAI：有证据表明 DeepSeek 使用了我们的模型进行训练前沿快讯	63	1534	2025 年1 月 30 日

DeepSeek V3 “报错家门” 引发热议，AI 模型身份混淆成焦点

相关话题