有关Deepseek的扫盲贴

这几天看L站里N多人在各种问,转发内容也是八仙过海。本帖为了给一些不明真相的爱好者以启发,旨在帮助入门佬友们少走弯路少被忽悠。

1、Deepseek唯一官方网址
https://www.deepseek.com

2、Deepseek唯一官方账号
微信公众号: DeepSeek
小红书: @ DeepSeek(deepseek_ai)
X(Twitter): DeepSeek (@deepseek_ai)

3、各种官方APP下载地址,优点是下载安装无门槛,缺点是目前官方服务几乎处于瘫痪状态
苹果App
华为电子市场
vivo电子市场
Deepseek官方安卓版
DeepSeek | Google Play

4、官方Github,各种爱好者喜欢折腾代码的才可能需要去看
Deepseek-r1
Deepseek-v3

5、官方Hugging Face,需要下载非量化模型的才需要用到
Deepseek-r1
Deepseek-v3

6、魔搭modelscope,如果:ladder:不给力HF下不动才需要考虑这个
Deepseek-r1
Deepseek-v3

7、Ollama部署,在以上两个非量化模型私有化部署时候遇到困难的,比如说显存太小ollama都是4bit量化模型,显存需求量只有原生非量化模型的1/4,比如说没有N卡,只有A卡、M系列的苹果电脑、甚至只有CPU
Deepseek-r1
Deepseek-v3

8、论文,想要学习训练思想的可以看看
[2501.12948] DeepSeek-R1:通过强化学习激励 LLM 中的推理能力
Paper page - DeepSeek-R1 | hugging face

其他注意事项:
v3版本只有671b模型,如果自己N卡配置不够¥300万的就可以直接忽略了。按说能关注这个的佬也不惜的看这种扫盲贴了。
r1版本比较复杂,总体规则是参数量越大依赖硬件资源越多模型越聪明,详细见下表:

模型名称及基模来源 Huggingface modelscope Ollama
Deepseek-R1-671B deepseek-ai/DeepSeek-R1 at main 魔搭社区 deepseek-r1
DeepSeek-R1-Zero deepseek-ai/DeepSeek-R1-Zero at main 魔搭社区 /
DeepSeek-R1-Distill-Llama-70B 基于llama3.3-70b模型蒸馏 deepseek-ai/DeepSeek-R1-Distill-Llama-70B · Hugging Face 魔搭社区 deepseek-r1:70b
DeepSeek-R1-Distill-Qwen-32B 基于qwen32b模型蒸馏 deepseek-ai/DeepSeek-R1-Distill-Qwen-32B · Hugging Face 魔搭社区 deepseek-r1:32b
DeepSeek-R1-Distill-Qwen-14B 基于qwen14b模型蒸馏 deepseek-ai/DeepSeek-R1-Distill-Qwen-14B · Hugging Face 魔搭社区 deepseek-r1:14b
DeepSeek-R1-Distill-Llama-8B 基于llama3.1-8b模型蒸馏 deepseek-ai/DeepSeek-R1-Distill-Llama-8B · Hugging Face 魔搭社区 deepseek-r1:8b
DeepSeek-R1-Distill-Qwen-7B 基于qwen7b模型蒸馏 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B · Hugging Face 魔搭社区 deepseek-r1:7b
DeepSeek-R1-Distill-Qwen-1.5B 基于qwen1.5b蒸馏 deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B · Hugging Face https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B deepseek-r1:1.5b
172 个赞

感谢大佬教程

2 个赞

感谢大佬教程

2 个赞

感谢佬友扫盲

3 个赞

清晰 明了 给力

2 个赞

不同的版本有什么区别?只是参数量不一样吗?比如 r1 和 v3

3 个赞

666啊

2 个赞

感谢大佬分享

感谢分享 没注意看是共创帖,差点把内容清空了

看着舒服~

佬,直接用APP的深度思考,是R1多少参数量的?

V3并没有think过程,还是用的传统scailing law训练方式,基本上就是大力出奇迹的打法。
R1的训练套路完全变了,推理的时候可以看到那个think…过程,效果更好。
我认为假如说v3足以让西方世界震惊的话,r1的出现那就彻底实现了“师夷长技以制夷”所以现在才被各种打压

1 个赞

那官方app必须是671b满血参数量:smile:

1 个赞

如果清空我就去始皇那告御状去 :joy:

1 个赞

感谢分享,正好需要

2 个赞

增加一下Deepseek的官方账号吧,360都没帮deepseek防御攻击,网上都已经出现deepseek感谢360和华为的消息了

感谢佬,这个文章大家都可以补充的。

感谢 @stevessr 帮忙补充了googleplay和Deepseek论文地址

感谢大佬教程

感谢佬友分享:xhs_014: