同一个模型为什么水平有的高有的低?

同一个模型,比如GCP的 Sonnet 和 官网的 web,还有POE这种三方平台,经常看到有人说哪个平台的模型不如哪个智能

算力应该只会影响速度吧?还会影响生成质量?
还是说三方平台提供的模型可能是参数量比较小?

另外 openai 本身官网的表现也是忽高忽低

  1. 平台采用不同的量化版本,导致性能会有差异
  2. 有些平台会通过prompt提示词或者其他工程方法改善性能
1 Like

可能掺水,可能降智

也就是我猜的 平台和 Claude 内部之间会提供不同的量化版本,但是对外统一宣称是 sonnet 模型