到底现在怎么评价一个模型的各项能力?

现在的模型越来越多,Claude ChatGPT Gemini 看各种评价都有好评差评。网上还有各种排行榜。作为一个不懂技术的小白,不知道怎么评价各个大模型的能力,在不同任务上做选择。

各种排行榜,评价标准看的眼花缭乱。各位有什么选择大模型的经验吗

1 Like

有条件御三家都试试,差不太多,适合自己就行。
常规4o,文学创作、代码调试 3.5 sonnet,英文 gemini

4o,claude3.5,gemini1.5exp

2 Likes

gemini 成本最低, 能力比较平均 所以我日常使用 gemini , 但也有白嫖 4o 遇到都没法解决的问题就去问 claude

干正事就claude,日常就gpt :melting_face:

1 Like

建议结合你的实际使用场景来判断

这是一个世界性难题,只能看你具体的场景

(帖子已被作者删除)

从翻译角度说一下:
gpt-4o,学院风,所见即所得,比较正统。
claude3.5,会做润色,但有时不是你想要的,得自己改。
Gemini,只做过几万字的翻译,真的不喜欢,就像个自以为了不起的写作高手,总是给你搞三搞四,结果原意有时候都不见得对得上。属于润色过度的那种。

单从翻译来说,首推4o,其次claude。Gemini可以直接扔了

看个人需求了,我的需求用国产的智谱和 deepseek 都够了,主要是便宜

模型评估很难,吴恩达说现在一个瓶颈就是模型评估,多维度,耗时间

设定好bot和prompt,然后准备几个问题问ai
这些问题需要是有意义的,你实际工作场景中能用到的,不要问ai脑筋急转弯,也不要用些语意不清的问题来刁难ai。
你如果是用ai来做文学创作,就不要拿数学题来评判ai的能力。

看这里,林哥野榜 https://lyihub.com/
更适合中国宝宝体质的大模型产品排行榜

得看使用场景,拿几个自己以前遇到的问题问一遍就知道了,别人的评测都太水了,根本不敢信

1 Like