这结果收钱都收麻了吧

15 Likes

这…32b打过旗舰模型…?!w

1 Like

32b干掉了自家的200b,让我觉得甚至像是在串 :laughing:

3 Likes

阿里:不对!报错模型了

确实,玩呢

32b把自家的235b打死了

省流:阿里云自己的32B模型打死200B,疑似报错模型

32B>22B 稠密模型的力量:grinning_face_with_smiling_eyes::grinning_face_with_smiling_eyes:

这给给完钱呢 这是啥结果都敢出

模型不一样 一个混合模型一个稠密模型… 32B是稠密模型 可以理解成32B数据全都用上了… 而235B是混合模型 例如数学推理 文字推理 各种语言等等加在一起又235B 单纯数学推理可能连32B都么有…

235B支持了太多的语言 比32B弱也不意外

看不懂,大受震撼

30b是dense 全参数激活
235b是MoE 激活只有22b啊
参数大小只影响知识面(容量),性能取决于训练质量
:tieba_087:

如果是235b的dense,个人根本就跑不起来 :bili_017: 显存就要几百G :tieba_087:

怎么感觉有点假2.5flash都上不了榜吗

那要这么说的话 那我使用32不更厉害

综合235b肯定是更强的,特定情况激活特定的”专家”。范围比30b大的多

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。