15 Likes
这…32b打过旗舰模型…?!w
1 Like
32b干掉了自家的200b,让我觉得甚至像是在串
3 Likes
阿里:不对!报错模型了
确实,玩呢
32b把自家的235b打死了
省流:阿里云自己的32B模型打死200B,疑似报错模型
32B>22B 稠密模型的力量
这给给完钱呢 这是啥结果都敢出
模型不一样 一个混合模型一个稠密模型… 32B是稠密模型 可以理解成32B数据全都用上了… 而235B是混合模型 例如数学推理 文字推理 各种语言等等加在一起又235B 单纯数学推理可能连32B都么有…
235B支持了太多的语言 比32B弱也不意外
看不懂,大受震撼
30b是dense 全参数激活
235b是MoE 激活只有22b啊
参数大小只影响知识面(容量),性能取决于训练质量
如果是235b的dense,个人根本就跑不起来 显存就要几百G
怎么感觉有点假2.5flash都上不了榜吗
那要这么说的话 那我使用32不更厉害
综合235b肯定是更强的,特定情况激活特定的”专家”。范围比30b大的多
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。