大模型排行榜看花了眼啊

在线对话与评测平台

  1. Chat with Open Large Language Models - lmsys.org
  2. 琅琊榜
  3. LYi 林哥的大模型野榜

专注中文的 LLM benchmark

  1. Chinese LLM Benchmark

专业评测平台

  1. SuperCLUE
  2. FlagEval - 排行榜
18 Likes

都看看挺好,避免某一个榜单失之偏颇

可以 Mark一下

mark

mark

模型再多 也就头部几个用起来人多.

1 Like

mark 一下,用时再来

只用始皇的new和claude

From #develop:ai to 资源荟萃

1 Like

人类评分:livebench,lmsys
LLM judge: AlpacaEval 2.0
官方评分:artificialanalysis.ai