【AI排名】与实际表现的比较，Xai太扯了。。。。。。。

kapas · 2024 年12 月 2 日 00:36

lmarena转发了下图

左侧被高估，右侧被低估
国内模型不错啊

最近我在写论文，正好对比了下
总体感觉还是claude最好

国内qwen，deep，glm plus， 01，感觉差不多
plus并没有特别优势
01感觉说的很多，很像人说的（看图也被高估了）

gemini 1121没看出优势，没感受到大家说的更人性化
xai感觉不错，感觉比1121好
可这图也太扯了
感觉和实际不符合

zeduwfd · 2024 年12 月 2 日 00:38

xai算了吧，国内的step还行，跟kimi差不多

kapas · 2024 年12 月 2 日 00:41

可我实际感觉xai还不错，感觉比1121好
可能嫌弃1121太慢了
哈哈

barrylongface · 2024 年12 月 2 日 00:43

lmarea有个问题是
你不知道他的温度和top p是怎么设置的，有没有添加特殊的system prompt。
我用来给文章总结，4o 1120的回复一骑绝尘
然而实际用起来，同样的问题回答的很一般

kapas · 2024 年12 月 2 日 00:45

到底是lm还是im？

taiguguai · 2024 年12 月 2 日 00:46

你的感觉是不是。。。有点多了

barrylongface · 2024 年12 月 2 日 00:48

是Lm，手滑打错了

I-IronMan · 2024 年12 月 2 日 01:11

lmarena.ai是通过用户投票来排名的，这种本身就不具备专业性

kapas · 2024 年12 月 2 日 01:13

有没啥专业点的排名？？？

isbn9877007 · 2024 年12 月 2 日 01:14

livebench，aider llm

I-IronMan · 2024 年12 月 2 日 01:18

从我的使用来看，感觉livebench.ai要更准确一些

handsome · 2024 年12 月 2 日 01:24

我感觉差点意思，但无审诶

arxiv · 2024 年12 月 2 日 01:30

看着挺主观的评分。自己感觉上Gemini, Claude, GPT似乎还略符合。Claude英语写作是不差，但是遣词造句还没GPT好用。Gemini其他能力一般，写作system prompt做好的话其实手动调整一下就好了，不需要反复生成好几遍。别的用的少就没啥心得了。Grok这样是说喂原题刷分了吗

Naproxen · 2024 年12 月 2 日 01:44

这图比较的是各家模型的分项排名与总体排名的关系吧，基准是模型的总体排名。低估与高估也是相较于自己的总体排名而言的。
意思是选择模型用于特定任务（如编程、数学、创意写作等）的时候，应该关注模型在该任务类别的具体表现，而不要只看总体排名。

LMDUzMm4 · 2024 年12 月 2 日 07:53

这里面的 microsoft 指的是 phi 把？
我自己用的感觉还是 chatgpt 和 claude 最好
microsoft 的 copilot 应该用的是 chatgpt？反正也比谷歌的好用
gemini 无论是 flash 还是 1121 都感觉一般般，可能是因为我用中文。

话题		回复	浏览量
claude openai 智谱 deepseek gemini这几家ai,最强的模型是哪个? 搞七捻三快问快答 , 纯水	32	845	2024 年11 月 20 日
本地大模型效果还是比较差搞七捻三人工智能	20	336	2024 年11 月 18 日
【yi-lightningd】排名，为什么这么高？？？？？？？？？搞七捻三人工智能 , 纯水	3	321	2024 年11 月 23 日
大家感觉除了Claude还有什么写代码比较好的ai呀？开发调优人工智能	14	976	2024 年11 月 29 日
Step-2排名全球第五国内第一资源荟萃人工智能 , LLM , 纯水	39	1814	2024 年11 月 22 日

【AI排名】与实际表现的比较，Xai太扯了。。。。。。。

相关话题