华为密集模型盘古 Ultra 性能比肩 DeepSeek-R1,纯昇腾集群训练


华为利用纯昇腾集群训练出的盘古 Ultra,在数学竞赛、编程等推理任务当中,和 R1 打得有来有回。

模型参数量 135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。

技术报告:

15 Likes

放出来了吗,等大佬测试

1 Like

山海经命名警告

一看新闻很了不起,一看是华为的,不敢恭维,大概率是先宣传,最后也不敢放出来测试

9 Likes


第一次在L站看到这种警告

1 Like

:bili_004:你懂的

:laughing: 因为某些人有华为ptsd

5 Likes

重点不应该是这个吗?性能我反倒不是很关注,可以脱离英伟达

3 Likes

希望不要高分低能

1 Like

不知道会不会开源 如果可以拜托老黄的卡 训练 那真的是天大的好事

最大亮点是自家卡训练 可以摆脱英伟达的低端卡

还是那句话。。。牛逼牛拿出让大家用。。。藏着掖着。。也不知道跑分特化。

4 Likes

如果是真的那还挺好,希望能早日放出来给大家用

不知道会不会放出来
就算高分低能,如果真的是完全摆脱NV的卡训练的,也很牛逼了

你们都没发现亮点 是非英伟达卡训练 这个模型是为了卖卡的

我训练了一个模型,也说没有用英伟达的,好像没人证明吧?你文本再怎么输入,也反映不了底层怎么训练的。。。

在哪里提到华为,下面都少不了一场恶战

盘古终于出语言模型了啊

华为基本是to b的 如果不开源也没办法用到 但是国内大厂肯定能拿到企业内部试用

只要不用N卡,就是好样的,希望多出来点竞争者,敲打敲打老黄,再卷一卷