哇靠 真是乱花渐欲迷人眼
蒸馏(更小)模型能比原模型更强 那就是开源界的奇迹了
benchmark不是全部,最终还是要以实际效果证道。除了本身效果的下降,现在的推理模型都不适合few shot,但是benchmark很多都是few shot场景的,对比zero shot可能更加公平
1 Like
gemini 有免费的 api 当然会有限制
我说的是硅基的gemma
但是这里指的是蒸馏后的模型和基模型对比,比如说R1-7b和Qwen2.5-7b对比
这样吗喵,懂啦
开源世界就留给大家探索啦
我开开心心玩双子星
groq的感觉还行
groq的R1蒸馏70B回答超快
佬很强 如果有需要欢迎加入我的团队
1 Like
佬你们团队是做什么的
但是感觉 写小写大大的好
啥……啥意思
插眼