是这样的,大家出来都是赚钱的,有些东西说变就变
不明觉厉,最近智谱AI好像也开始卷价格了
感谢大佬的硬核。
是不是可以理解deepseek.用了小的参数量,在输出之前,先做了专家模式的前端判定。 这样的话就比gp4省了很多计算的资源。毕竟gpt4万亿的参数。计算量大。
我这么理解对嘛
好,干货!
太专业了吧!!!
师傅,你是做什么工作的
不是,就像我在文中说的,节省成本主要是通过mla对数据进行处理,节省了kv的缓存,整体计算速度更快,同运算量下处理的数据更多,gpt4专家模型我查了一下已经确定,是16个专家模型,也是前馈神经网络传递,但是是一次路由两个专家,开源模型纷纷效仿也是跟随先进经验
1 Like
呃,嵌入式开发,我真的只是爱好者而已啊,都在说我专业搞得我诚惶诚恐的
2 Likes
好专业的解读
佬越来越多了
看了,看不懂,尴尬
确实感觉能做到矩阵交换律这个东西能节省不知道多少无用计算,但是为节省计算来选择交换还要保证计算结果OK,想想就头大[手动狗头]
也不是完全解决,这里是用旋转编码嵌入的方式尽量让计算相同的部分在一起运算来减少缓存的使用
好吧,那这还是可以理解的
根据楼主的部分内容,结合Google Gemini的总结整了个课堂报告。
PPT下载链接:DeepSeek Models.pptx
(PS:由于删除了部分版图,包含学校的信息,所以部分内容格式有些问题,但不影响。)
顺便推一下Github一本PDF书籍: 大语言模型 | LLMBook-zh
我写的内容都很简单哈哈,都只是浅浅在表面聊了一下,有些都没有讨论到,比如mla的完整算法,思路挺有意思的,可以到原论文看看
我也是,只是浅浅的介绍一下,具体不是这个方向的。
还是感谢楼主给我提供的一个演讲主题。
佬,牛批
妈耶 怎么每次都认识 连起来一个字都看不懂
1 Like
啊,是这样啊,我懂了!(完全没搞懂)