Dario Amodei辟谣:Claude-3.5 Sonnet是原生训练的模型,不是从Claude Opus模型蒸馏的。

感觉大家可以等一等,新模型。

他这次辟谣了外界传言Claude-3.5 Sonnet是更大模型蒸馏的说法。指出Claude-3.5 Sonnet是原生训练的模型。某种程度上否认了外界猜测自己藏着Claude Opus的说法。(暗示更大模型一直在训练?训练了一年?)

原文:
达里奥·阿莫迪——关于 DeepSeek 和出口管制 — Dario Amodei — On DeepSeek and Export Controls

8 个赞

Claude的基座性能这么强如果拿来做思维链模型效果不敢想象,可惜了他们目前似乎没有做思维链的想法

3 个赞

从这人过往的言论,和最新的文章,这人老繁华分子了

不排除估计o1的思维链,让3.5 opus推迟了。我猜测原计划opus应该是12月-2月发布的。难道在8月的时候,回炉重造了?

我感觉他比奥特曼还反华,好像奥特曼口头上没这么频繁发表反华言论。

相比之下谷歌、meta、Xai对华都显得很公正了。

1 个赞

这是怎么猜测出来的

之前科技媒体有过报道,说Opus最早是24年末有望登场。

达里奥·阿莫迪,最新的说法是2025年,6月之前会发布新的模型,结合这篇文章,可能就是opus。

在这篇文章,纠正了之前50,000 H100 的说法,结果是差不多,但考虑到deepseek 是三种显卡的混合

In some interviews I said they had “50,000 H100’s” which was a subtly incorrect summary of the reporting and which I want to correct here. By far the best known “Hopper chip” is the H100 (which is what I assumed was being referred to), but Hopper also includes H800’s, and H20’s, and DeepSeek is reported to have a mix of all three, adding up to 50,000. That doesn’t change the situation much, but it’s worth correcting. I’ll discuss the H800 and H20 more when I talk about export controls.

文章确实很怪,对export control 非常坚决(在访谈中已经提到),不过最后还是标注 解释了自己的用意。

To be clear, the goal here is not to deny China or any other – country the immense benefits in science, medicine, quality of life, etc. that come from very powerful AI systems. Everyone should be able to benefit from AI. The goal is to prevent them from gaining military dominance.

其他的核心意思是,deepseek 并没有改变整个AI的生态,而只是一种 被期待的优化行为,只不过这种行为 这一次没有发生在 US。
他的模型基于 更强的模型,而自家的 Claude 3.5 Sonnet 没有这种优势的,直接来证明 Sonnet 的训练成本高昂 是不合逻辑的。

DeepSeek produced a model close to the performance of US models 7-10 months older

个人看法:Dario 还是比较有想法的,很多对立 不过是各为其阵营,不过这篇文章有一个逃不掉的败笔,就是没有提到 哪怕带过: deepseek 的模型,是权重开源的,这本身值得 Anthropic 和 OpenAI 脸红。

3 个赞

怎么又是他

gpt-4是MOE这点应没人反驳吧?

所以现在gpt-4是不是moe?

哪有什么反华不反华,都是利益。deepseek 触犯他利益了。
资质本无祖国。

2 个赞

有道理,之前就看cline强推r1+3.5,而cline又是anthropic的

1 个赞

这人是所有AI企业CEO里最繁华的,没有之一。昨晚还在他还在X上说要加大对华出口管制力度,评论下全是讽刺他无能的 :rofl:

1 个赞

他就是个小丑 :clown_face: 自己的对话完败 GPT.就靠点API卖程序员了。未来基于deepseek优化IDE,他咋吃饭?