被蒸馏后的deepseek蠢到了,大家都用蒸馏版的来干嘛呀

在本地部署了一个deepseek 8b的版本,好心给他纠错,结果很倔强


然后又试着部署了一个32b的版本,

不知道大家用蒸馏版都用来干嘛,感觉只有全量版才能作为生产力工具

22 Likes

16b/32b模型的写代码聊天什么的还行。

3 Likes

这种感觉就像claude小模型那样适合做翻译那种?毕竟小体量模型一般响应速度快,推理能力感觉就要稍稍推后了

2 Likes

应该会被拿来瑟瑟吧…

这个不太适合做翻译,思维链经常消耗正文的2-10倍左右的token :bili_017:如果算力不算高的情况下等半天正文还没出来 :bili_017:

那还真就不知道拿来干啥了,真是这样的话,这个版本的模型比我想象的还要不堪,怕是涩也涩不动吧。。。

16b的我在我那个炼丹炉上跑大概8token/s左右,问个你是谁基本上得等30多秒

这么离谱…

就正常用啊,有的时候是设备用次一档的体验更差,就上高一档

满足自己部署的成就感

5 Likes

这种就适合看一看,本地部署ai太傻了

2 Likes

主打一个快乐

1 Like

你居然给它上这么有难度的任务

1 Like

营销号看多了
70b以下 基本不可用
本地部署的7b 14b 图一乐
然后还得骂deepseek 什么垃圾
是不是这个道理

4 Likes

普通聊聊

都本地了,不要考虑成本,你就让你孩子们玩玩


绝了,思考是对的,回答错了

1 Like

不知道本地写这个行不行

完全体是真:ox:,这喷不了