【已解决】Deepseek的运作机制是什么

佬们我有以下3个问题:

*为什么Deepseek APP上的模型丝毫没提过收费?
*Deepseek的满血版和官网版有什么区别?
*Deepseek的运作机制又是什么?

5 个赞

deepseek的api是收费的,网页免费但是不保证稳定性

1 个赞

所谓的满血版,一般是第三方部署的开源的deepseeek模型,功能上没有官网的强大的联网搜索能力。其他的倒是差别不大,官网版本可能有微调。

1 个赞

感谢讲解:folded_hands:

:one:理想的满血版R1:
|---- 模型参数(671B)
|---- 精度(BF16/FP8)
|---- 上下文窗口大小(128K)
|---- 深度思考(COT)窗口大小(32K)
|---- 输出窗口大小(8K)

:two: 实际第三方提供的满血R1:
|---- 模型参数(671B)
|---- 精度(Q8/Q4/Q1.5)
|---- 上下文窗口大小(64K/32K)
|---- 深度思考(COT)窗口大小(2K-8K)
|---- 输出窗口大小(4K-8K)

3 个赞

国内很多都是网页端免费api收费的模式,当然也有很多网页版采用会员制区分可用模型

1 个赞

为什么Deepseek APP上的模型丝毫没提过收费?

原因很简单,因为赚钱不是他们的目标。所以他们宁可服务超载也不开任何收费方案。

另一个原因是他们缺卡,所以做不了严格意义上的付费服务,毕竟时不时超载可用性不好用户也会感觉不太好。

PS:API 是另一回事,毕竟一个人能打出很大并发,还是有必要收费的。

Deepseek的满血版和官网版有什么区别?

官网永远是最好的,因为模型是他们自己做的。理论上第三方配置正确不量化模型效果会和官网一样,但不能保证提供商都能做到这些。

Deepseek的运作机制又是什么?

我不知道问的是公司的运作机制还是模型,如果你问的是模型的原理可以 B 站搜索 3blue1brown 的大模型入门视频。如果是前者的话,网上有不少资料以及对梁(DS老板)的一篇完整采访可供参考。

2 个赞

“官网永远是最好的,因为模型是他们自己做的。”

有两点,第一官网8bit推理精度实在太低了,你看任何一家提供API商业公司,至少也是float16起步的。

第二,8k的最大输出tokens,在所有提供API公司里,算最小气的,没有之一。

1 个赞

有两点,第一官网8bit推理精度实在太低了

兄弟,你是认真的吗?V3 和 R1 原生 mostly FP8 训练,用 16 位的要么是卡不够新(<Hopper)只能 fallback 到更高精度,要么是纯纯技术不行不知道怎么跑。总之 V3 和 R1 用超过 FP8 跑不会有任何精度上的领先

1 个赞

我知道deepseek发布模型用的就是FP8,但问题是,横向对比一下,别的公司开源模型主流基本都是BF16格式。。显存占用容量翻倍的效果确实也很明显。

1 个赞

别的公司开源模型主流基本都是BF16格式

你觉得它们为啥不练 FP8,是不想吗?

节选技术报告的一段

In addition, its training process is remarkably stable. Throughout the entire training process, we did not experience any irrecoverable loss spikes or perform any rollbacks.

这几句轻描淡写的话就是以前(现在也是)很多玩 LLM 的公司梦寐以求的东西了…

1 个赞

不是,原生高效的FP8正是DeepSeek的一大创新啊……

1 个赞