悄咪咪的,DeepSeek发布了DeepSeek-R1-0528-Qwen3-8B.
在AIME 2024上,分数超过Qwen3-235B-thinking,其他的测试还是差一些的。
除了Huggingface我还没找到哪里有这个模型。我笔记本跑不了bf16的8B模型,不知道有没有站内的佬帮忙来测试一下看看。或者得等llama cpp帮忙quant到q4_k_m了,然后我本地ollama跑了。
悄咪咪的,DeepSeek发布了DeepSeek-R1-0528-Qwen3-8B.
在AIME 2024上,分数超过Qwen3-235B-thinking,其他的测试还是差一些的。
除了Huggingface我还没找到哪里有这个模型。我笔记本跑不了bf16的8B模型,不知道有没有站内的佬帮忙来测试一下看看。或者得等llama cpp帮忙quant到q4_k_m了,然后我本地ollama跑了。
modelscope
此贴完结,Ollama也上了这个模型。待会下下来试试看
我看推上说的4比特量化版本,只需要4G以上显存就能跑了。
真好,qwen3 8b本来处理些小问题就很强了
现在 ollama 上就有 q4_k_m 量化版呀,
而且 ollama 上的 deepseek-r1:8b 已经指向 qwen3:8b 蒸馏版了。
硅基有了
嗯,openrouter 也有。
lmstudio自己量化了
有gguf可以用ollama cpu就可以跑
佬友,想问一下为什么两个模型凑一起了,是什么意思呀
deepseek用r1作为教师模型来微调qwen3得到一个能力有所提升的模型
原版给我的感觉更强一点
不懂就问..我还能基于这个在微调么
这个lmstudio如何量化呢,又教程么
可以。看看Unsloth Notebooks | Unsloth Documentation 这里有教程。