都看看挺好,避免某一个榜单失之偏颇
可以 Mark一下
mark
mark
模型再多 也就头部几个用起来人多.
1 Like
mark 一下,用时再来
只用始皇的new和claude
From #develop:ai to 资源荟萃
1 Like
人类评分:livebench,lmsys
LLM judge: AlpacaEval 2.0
官方评分:artificialanalysis.ai