文本分析能力,逻辑理解能力,长文档抓取细节能力,代码能力,提示词依从性,还有最终输出质量(文笔,结构等等),都如何?有没有佬友有初步体验了?最好注明一下是中文还是英文。
我自己拿简单测试题来看,西红柿炒钢丝球这个级别的基本还是能答对的,但甲乙丙丁谁说谎(中文)和足球比赛需要赢几场那个问题(英文)正确率不算太高,从这点上似乎不如之前的turbo表现好。不过这些测试题终究不能代表一个模型的最终表现,不知有没有人有更深度的体验?
文本分析能力,逻辑理解能力,长文档抓取细节能力,代码能力,提示词依从性,还有最终输出质量(文笔,结构等等),都如何?有没有佬友有初步体验了?最好注明一下是中文还是英文。
我自己拿简单测试题来看,西红柿炒钢丝球这个级别的基本还是能答对的,但甲乙丙丁谁说谎(中文)和足球比赛需要赢几场那个问题(英文)正确率不算太高,从这点上似乎不如之前的turbo表现好。不过这些测试题终究不能代表一个模型的最终表现,不知有没有人有更深度的体验?
反正比3.5好多了
时好时不好,我不知道怎么评价,感觉能力波动有点大
根据很nice,比3.5强太多
为什么我的钢丝球炒鸡蛋,π大小还是不行,不过鲁迅倒是可以
时好时坏,还是始皇的香
意思是4o也可能被后台偷偷换3.5吗?
目前可以确定的是免费的会是这样,plus没发现
那坏了,真这样的话感觉第三方渠道也不靠谱了 用真api的可能还好,逆向的岂不是也可能中了openai的招了
据说很nice
现在应该是可以锁模型的,未来不清楚会不会转后台