这几天看L站里N多人在各种问,转发内容也是八仙过海。本帖为了给一些不明真相的爱好者以启发,旨在帮助入门佬友们少走弯路少被忽悠。
1、Deepseek唯一官方网址
https://www.deepseek.com
2、Deepseek唯一官方账号
微信公众号: DeepSeek
小红书: @ DeepSeek(deepseek_ai)
X(Twitter): DeepSeek (@deepseek_ai)
3、各种官方APP下载地址,优点是下载安装无门槛,缺点是目前官方服务几乎处于瘫痪状态
苹果App
华为电子市场
vivo电子市场
Deepseek官方安卓版
DeepSeek | Google Play
4、官方Github,各种爱好者喜欢折腾代码的才可能需要去看
Deepseek-r1
Deepseek-v3
5、官方Hugging Face,需要下载非量化模型的才需要用到
Deepseek-r1
Deepseek-v3
6、魔搭modelscope,如果不给力HF下不动才需要考虑这个
Deepseek-r1
Deepseek-v3
7、Ollama部署,在以上两个非量化模型私有化部署时候遇到困难的,比如说显存太小ollama都是4bit量化模型,显存需求量只有原生非量化模型的1/4,比如说没有N卡,只有A卡、M系列的苹果电脑、甚至只有CPU
Deepseek-r1
Deepseek-v3
8、论文,想要学习训练思想的可以看看
[2501.12948] DeepSeek-R1:通过强化学习激励 LLM 中的推理能力
Paper page - DeepSeek-R1 | hugging face
其他注意事项:
v3版本只有671b模型,如果自己N卡配置不够¥300万的就可以直接忽略了。按说能关注这个的佬也不惜的看这种扫盲贴了。
r1版本比较复杂,总体规则是参数量越大依赖硬件资源越多模型越聪明,详细见下表:
模型名称及基模来源 | Huggingface | modelscope | Ollama |
---|---|---|---|
Deepseek-R1-671B | deepseek-ai/DeepSeek-R1 at main | 魔搭社区 | deepseek-r1 |
DeepSeek-R1-Zero | deepseek-ai/DeepSeek-R1-Zero at main | 魔搭社区 | / |
DeepSeek-R1-Distill-Llama-70B 基于llama3.3-70b模型蒸馏 | deepseek-ai/DeepSeek-R1-Distill-Llama-70B · Hugging Face | 魔搭社区 | deepseek-r1:70b |
DeepSeek-R1-Distill-Qwen-32B 基于qwen32b模型蒸馏 | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B · Hugging Face | 魔搭社区 | deepseek-r1:32b |
DeepSeek-R1-Distill-Qwen-14B 基于qwen14b模型蒸馏 | deepseek-ai/DeepSeek-R1-Distill-Qwen-14B · Hugging Face | 魔搭社区 | deepseek-r1:14b |
DeepSeek-R1-Distill-Llama-8B 基于llama3.1-8b模型蒸馏 | deepseek-ai/DeepSeek-R1-Distill-Llama-8B · Hugging Face | 魔搭社区 | deepseek-r1:8b |
DeepSeek-R1-Distill-Qwen-7B 基于qwen7b模型蒸馏 | deepseek-ai/DeepSeek-R1-Distill-Qwen-7B · Hugging Face | 魔搭社区 | deepseek-r1:7b |
DeepSeek-R1-Distill-Qwen-1.5B 基于qwen1.5b蒸馏 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B · Hugging Face | https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B | deepseek-r1:1.5b |