问问一些没怎么用过的模型的测评

Ideenaster · 2024 年11 月 25 日 05:08

平时一直用的OpenAI或者Claude，对于google那边的Gemini和开源社区的Qwen2.5之类没啥概念，有什么靠谱的天梯榜啥的吗，比如哪些型号对标claude3-5-sonnet之类的

bard · 2024 年11 月 25 日 05:14

Ideenaster · 2024 年11 月 25 日 05:25

livebench数据似乎不是很新
Chatbot Arena我也看过，google和OpenAI这几天刷榜来着

bard · 2024 年11 月 25 日 05:31

livebench 不是不信,step2都上了近期上排名的. 不是不新号称最难作弊的榜.

Arena榜单有点娱乐意思.

其他榜有请其他佬友分享吧. 我很少看其他的.有的榜混元都前几名

Ideenaster · 2024 年11 月 29 日 03:16

qwen 2.5 72b到底什么水准在silicon上是真便宜

bard · 2024 年11 月 29 日 08:24

开源里面算挺厉害的模型吧, 我用的不多没办法评价参考一些测试或文章吧

话题		回复	浏览量
大家感觉除了Claude还有什么写代码比较好的ai呀？开发调优人工智能	14	977	2024 年11 月 29 日
我想了解现在的模型各种性能比较图，有没有直观一点的？搞七捻三快问快答	2	510	2024 年12 月 9 日
Google AI studio里面的ai语言模型哪个好用？有没有都用过的推荐一下开发调优人工智能 , 快问快答	26	364	2024 年11 月 20 日
你们使用哪个模型进行翻译？开发调优 AFF , 人工智能 , 沉浸式翻译 , 纯水	14	620	2024 年11 月 8 日
Step-2排名全球第五国内第一资源荟萃人工智能 , LLM , 纯水	39	1817	2024 年11 月 22 日