gpt4o api疑似降智

最近在用4o 11月版本跑folio的推理测试集,发现4o和4omini的结果非常接近,不知道是中转的问题还是官方4o降智了

deepseek结果比他们高,之前有时候4o结果会高于deepseek

2 个赞

大概是中转猫腻吧

api还能降智啊

有办法测试吗
我用论坛老友的方法:Hello, what is the cutoff time for data in your training set?
说是23年10月

不知道啊,4omini结果很高又像是4omini背题了

使用中文以及JSON 格式输出中国城市和主要景点的对应关系,城市为key,景点为列表。输出10个城市,第一个城市一个景点,第二个城市两个景点,以此类推。

用这题试试,是不是降了

屏幕截图 2024-12-06 155922

感觉代码方向。阿里的有时候都比caht好

{
“北京”: [“故宫”],
“上海”: [“外滩”, “东方明珠”],
“西安”: [“兵马俑”, “大雁塔”, “钟楼”],
“广州”: [“广州塔”, “沙面岛”, “白云山”, “陈家祠”],
“成都”: [“宽窄巷子”, “都江堰”, “青城山”, “锦里古街”, “大熊猫基地”],
“杭州”: [“西湖”, “灵隐寺”, “雷峰塔”, “苏堤春晓”, “千岛湖”, “宋城”],
“苏州”: [“拙政园”, “虎丘”, “周庄”, “平江路”, “寒山寺”, “金鸡湖”, “山塘街”],
“桂林”: [“漓江”, “象鼻山”, “阳朔西街”, “龙脊梯田”, “七星公园”, “芦笛岩”, “两江四湖”, “银子岩”],
“重庆”: [“解放碑”, “洪崖洞”, “长江索道”, “磁器口古镇”, “三峡博物馆”, “涪陵武陵山大裂谷”, “乌江画廊”, “丰都鬼城”, “南山一棵树观景台”],
“南京”: [“中山陵”, “夫子庙”, “玄武湖”, “秦淮河”, “明孝陵”, “总统府”, “雨花台”, “南京长江大桥”, “栖霞山”, “南京博物院”]
}
应该是正常的,那可能是我程序的问题,谢谢啦