为什么deepseek说自己是由OpenAI开发的一种先进的语言模型🤔

之前Gemini还说自己是文心一言呢.别奇怪

感谢佬讲解!因为我是第一次用这个就出现这样的情况,所以感觉怪怪的,我以为是我的Cherry Studio有什么错误的设置导致的

还真是 :sweat_smile:

这些公司都绕不开跑分怪圈,体验差白送都没人用,如果跑分差就更没人用,focus在跑分上又会导致体验差,不说agi了基本的可用都达不到

确实如此 :tieba_087:

主要是用了 gpt 生成数据来训练,所以也学会了 gpt 的语句,开源模型,又便宜。(理解万岁:full_moon_with_face:

量大管饱!也确实挺好用的 :laughing:

数据集的问题吧

ds用了非常多的从chatgpt那里薅来的数据,事实上,还经常认为自己是claude。
ds在蒸馏数据上是做的很好的,比豆包等强!

在现在新的训练方法下

所有的新的大模型,都离不开上一个版本的大模型的数据

chatgpt和claude还有gemini,也都这么玩的。。。不过闭源模型,发布周期长,发布之前会进行更充分的红队测试,提前会改掉很多回答

开源模型没这个步骤,基本上差不多就发出来了

因为 deepseek 爬了 gpt-4o 巨多数据,日常回答内容几乎跟 gpt 回复一致。
但是呢,它又同时还爬了 Sonnet 巨多数据,所以它编程能力又很强,甚至内部还藏着 claude 人格。
如果你能好好用,等于 gpt+claude 合体,而且还免费,直接无敌

参考

1 个赞

看来应该是这样了

感觉豆包更注重形式的内容,那些花里胡哨的UI做的很好(不是说这个不重要)
但是实际用起来真的差点意思
感觉有点像GPT和Claude,Claude平时就是低调的做内容,GPT会高调一点(也不是说这样不好)

听其他人说,可能是数据污染

哇去!deepseek!
buff拉满! :laughing:

确实会被污染了

原来是这样玩的:joy:
现在看来应该是技术达到了一个门槛,从1.0到2.0的突破很难做
就像现在的ai生成视频,从数学上说,点动成线,线动成面,现在面的部分已经比较完善了,但是面动成体的部分还是做的不好
所以我猜这些大模型现在更多的应该是比拼算力能源这些东西吧:thinking:
Claude比GPT好用可能一部分原因就是因为门槛相对较高,用户少一些,然后每回答的质量都相对更高

直接用官方app呗,能联网搜索和ocr分析图片,效果挺好的

对哦!还真是「只原深在此山中」了:rofl: