DeepSeek-R1-0528-Qwen3-8B发布了,超越Qwen3-8B 10%

悄咪咪的,DeepSeek发布了DeepSeek-R1-0528-Qwen3-8B.
在AIME 2024上,分数超过Qwen3-235B-thinking,其他的测试还是差一些的。

除了Huggingface我还没找到哪里有这个模型。我笔记本跑不了bf16的8B模型,不知道有没有站内的佬帮忙来测试一下看看。或者得等llama cpp帮忙quant到q4_k_m了,然后我本地ollama跑了。

5 Likes

modelscope

4 Likes

此贴完结,Ollama也上了这个模型。待会下下来试试看

我看推上说的4比特量化版本,只需要4G以上显存就能跑了。

:tieba_001:真好,qwen3 8b本来处理些小问题就很强了

现在 ollama 上就有 q4_k_m 量化版呀,
而且 ollama 上的 deepseek-r1:8b 已经指向 qwen3:8b 蒸馏版了。

硅基有了 :lark_012:

嗯,openrouter 也有。

lmstudio自己量化了

有gguf可以用ollama cpu就可以跑

佬友,想问一下为什么两个模型凑一起了,是什么意思呀

deepseek用r1作为教师模型来微调qwen3得到一个能力有所提升的模型

1 Like

原版给我的感觉更强一点

1 Like

不懂就问..我还能基于这个在微调么

这个lmstudio如何量化呢,又教程么

可以。看看Unsloth Notebooks | Unsloth Documentation 这里有教程。