deepseek便宜的像欺诈?我们来聊一聊deepseek这个v2模型

deepseek的价格低的出乎意料,那么其究竟是因为背靠大树还是确实自己有实力呢?我们可以简单看看其发的研究论文看看有什么端倪。

论文开头就挂上了这张结构图,我们来简单看看:

这个图有什么内容呢?我们可以看到,Transformer Block部分就是其模型的主要结构,不难看出是一个比较标准的Tranformer架构,每一层包括一个注意力机制(Attention)和一个前馈神经网络(Feed-Forward Network,FFN),两者之间和之后都进行了RMS归一化处理,且整体模型包含L多层

DeepSeek在这个架构中主要做了两点创新,一个是在前馈神经网络中设计了一个名为DeepSeekMoE的混合专家模型的结构,一个是对多头注意力机制中添加了一个新颖的算法进行改进,组成名为多头潜在注意力(Multi-Head Latent Attention, MLA)的Attention。

因为我懒,所以今天单纯来聊一聊基础的DeepSeekMoE的结构,这也是他们模型能力的来源(没错,MLA是其成本低廉的原因,但我今天不聊这个,别说我开头欺诈)。

相信专家模型这个概念大家并不陌生,佬友们最受欢迎的GPT-4就被爆料说采用了混合专家模型(MoE)【该消息未经官方证实,为爆料消息,仅供参考】,接下来我们看看deepseek的论文是如何介绍他们的混合专家模型:

可以看到,最基础的描述该模型就三个公式,
\mathbf{u}_{t}
进去了出来就成了
\mathbf{h}_{t}
,细心的佬友可以在上面的结构图中看到u是由MLA处理后的数据输入,对于这三个公式,我简单的一 一介绍。

首先是第一条公式:

\mathbf{h}_{t}^{\prime}=\mathbf{u}_{t}+\sum_{i=1}^{N_{s}}\mathrm{FFN}_{i}^{(s)}(\mathbf{u}_{t})+\sum_{i=1}^{N_{r}}g_{i,t}\mathrm{FFN}_{i}^{(r)}(\mathbf{u}_{t}),

这个是混合专家模型的核心,将专家分为了:
共有专家(shared expert)
\sum_{i=1}^{N_r}g_{i,t}\text{FFN}_i^{(r)}(\mathbf{u}_t)

分流专家(routed exper)
\sum_{i=1}^{N_r}g_{i,t}\mathrm{FFN}_i^{(r)}(\mathbf{u}_t)
两个部分,来对输入参数
\mathbf{u}_{t}
进行处理。

共有专家(shared expert)是为了将输入信息中的通用信息进行一个捕获和加工,而分流专家(routed exper)则是通过
g_{i,t}
这个门控信号来进行控制是否开启,该专家作用是对一些针对性的信号来进行加工,最终输出处理结果。(这里两个专家模型描述比较简略,其都为前馈神经网络模型,详细的神经网络结构本论文并未说明,也可能是我遗漏,因为只是简单浏览了一遍)

我们可以看到,
g_{i,t}
信号由一个门函数
g_{i,t}=\begin{cases}s_{i,t},&s_{i,t}\in\text{Topk}(\{s_{j,t}|1\leqslant j\leqslant N_r\},K_r),\\0,&\text{otherwise},\end{cases}
进行产生,
s_{i,t}
用于描述输入信息与分流专家的亲和度,TopK则是将所有亲和度最高的K个专家进行一个排序,如果遍历到的专家刚好在这其中,就在本次输出中激活它,若不是,则关闭,这样就做到了对于专家的选取。

最后的公式就不过多赘述,softmax函数是常用于机器学习中对数据进行分类的函数,这里的作用是将信息与专家模型之间进行一个分类。到这里,我就跟大家聊完了这个模型的简单结构。

最后可以提一嘴MLA,其中对标准注意力进行的改进,deepseek团队将其称为低秩键值联合压缩(Low-Rank Key-Value Joint Compression),按照我的个人理解就是将输入信息的键值对矩阵通过低维映射的方式进行压缩(矩阵的因式分解?),然后将压缩后的输入通过解耦旋转位置嵌入(Decoupled Rotary Position Embedding)进行处理来进行减少重复运算(这一块我不是太懂,但是看公式和描述应该是为了减少因矩阵乘法无法使用交换律而造成的重复运算),看其描述效果挺不错的。

最后,因为我也不是相关专业人士,仅仅只是人工智能技术爱好者,所以文中难免有错误或者个人的理解问题,欢迎佬友指正!

最后,遵循论坛的精神:真诚、友善、团结、专业,欢迎大家进行讨论

37 个赞

搞七捻三机器学习

#DeepSeek添加

前排,膜拜大佬
不明觉厉

3 个赞

专业

3 个赞

没,简单聊聊,我也不懂

2 个赞

你不懂我就是秦始皇 :crazy_face:

3 个赞

哈哈,不至于不至于,我也是晚上没啥事情干研究了一下,沉浸式用久了,看英文都头大

2 个赞

论坛居然不支持行内公式 :rofl:

2 个赞

太强了

2 个赞

确实,编辑的时候头都大,markdown排版我不是特别熟练,哈哈

1 个赞

希望能越做越好 :+1:

1 个赞

所以是好是坏?
困难还是简单
论文太学术化了 :smiling_face_with_tear:

1 个赞

可以说是同等能力下,成本更低,我是这样理解的,而且现在混合专家模型确实是主流,未来正常迭代性能也不会差

2 个赞

就是低成本,更好的性能,性价比高

1 个赞

看个人体验吧,一家开始打价格战,其他也会跟进,就像零几年的百团大战,一几年的百盘大战等等,现在deepseek的性价比高,未来不见得

2 个赞

不明觉厉,直接看结论

1 个赞

mark一下,明天就拿你这个课堂演讲
( っ’-')╮ =͟͟͞͞:basketball:

1 个赞

优秀

1 个赞

一开始毕竟不好说,谁织都后续会怎么调整,它之前注册送的还无期限,不也改一个月了吗

1 个赞