gpt-4o性能怎么样，大家有初步感受了吗？

ABcopilot · 2024 年5 月 14 日 08:29

文本分析能力，逻辑理解能力，长文档抓取细节能力，代码能力，提示词依从性，还有最终输出质量（文笔，结构等等），都如何？有没有佬友有初步体验了？最好注明一下是中文还是英文。

我自己拿简单测试题来看，西红柿炒钢丝球这个级别的基本还是能答对的，但甲乙丙丁谁说谎（中文）和足球比赛需要赢几场那个问题（英文）正确率不算太高，从这点上似乎不如之前的turbo表现好。不过这些测试题终究不能代表一个模型的最终表现，不知有没有人有更深度的体验？

handsome · 2024 年5 月 14 日 08:30

反正比3.5好多了

Coker · 2024 年5 月 14 日 08:32

时好时不好，我不知道怎么评价，感觉能力波动有点大

wo_zu_long · 2024 年5 月 14 日 08:34

xk2024 · 2024 年5 月 14 日 08:35

根据很nice，比3.5强太多

lxl · 2024 年5 月 14 日 08:36

为什么我的钢丝球炒鸡蛋，π大小还是不行，不过鲁迅倒是可以

baipiaodang · 2024 年5 月 14 日 08:36

时好时坏，还是始皇的香

ABcopilot · 2024 年5 月 14 日 08:36

意思是4o也可能被后台偷偷换3.5吗？

wo_zu_long · 2024 年5 月 14 日 08:37

目前可以确定的是免费的会是这样，plus没发现

ABcopilot · 2024 年5 月 14 日 08:39

那坏了，真这样的话感觉第三方渠道也不靠谱了用真api的可能还好，逆向的岂不是也可能中了openai的招了

comsharp · 2024 年5 月 14 日 08:40

据说很nice

wo_zu_long · 2024 年5 月 14 日 08:41

现在应该是可以锁模型的，未来不清楚会不会转后台

话题		回复	浏览量
大家觉得GLM4的性能怎么样人工智能	16	918	2024 年1 月 25 日
常见大模型语言能力测评人工智能 chatgpt , openai	13	676	2024 年6 月 7 日
如何区分真假GPT-4 人工智能	31	4143	2024 年5 月 21 日
我自己做的考公行测摸鱼提示词人工智能 chatgpt , openai , 小工具 , copilot , gpt-4o	11	496	2024 年6 月 14 日
测试了四个语言大模型对于同一问题认知程度，你觉得哪个理解的更全面透彻呢？搞七捻三 chatgpt	4	311	2024 年5 月 18 日