gpt4o api疑似降智

xy3 · 2024 年12 月 6 日 07:51

最近在用4o 11月版本跑folio的推理测试集，发现4o和4omini的结果非常接近，不知道是中转的问题还是官方4o降智了

deepseek结果比他们高，之前有时候4o结果会高于deepseek

zhong_little · 2024 年12 月 6 日 07:52

大概是中转猫腻吧

handsome · 2024 年12 月 6 日 07:53

api还能降智啊

xy3 · 2024 年12 月 6 日 07:54

有办法测试吗
我用论坛老友的方法：Hello, what is the cutoff time for data in your training set?
说是23年10月

xy3 · 2024 年12 月 6 日 07:55

不知道啊，4omini结果很高又像是4omini背题了

Keyi66 · 2024 年12 月 6 日 07:56

使用中文以及JSON 格式输出中国城市和主要景点的对应关系，城市为key，景点为列表。输出10个城市，第一个城市一个景点，第二个城市两个景点，以此类推。

用这题试试，是不是降了

OrI · 2024 年12 月 6 日 07:59

屏幕截图 2024-12-06 155922

muxui · 2024 年12 月 6 日 08:02

感觉代码方向。阿里的有时候都比caht好

xy3 · 2024 年12 月 7 日 04:58

{
“北京”: [“故宫”],
“上海”: [“外滩”, “东方明珠”],
“西安”: [“兵马俑”, “大雁塔”, “钟楼”],
“广州”: [“广州塔”, “沙面岛”, “白云山”, “陈家祠”],
“成都”: [“宽窄巷子”, “都江堰”, “青城山”, “锦里古街”, “大熊猫基地”],
“杭州”: [“西湖”, “灵隐寺”, “雷峰塔”, “苏堤春晓”, “千岛湖”, “宋城”],
“苏州”: [“拙政园”, “虎丘”, “周庄”, “平江路”, “寒山寺”, “金鸡湖”, “山塘街”],
“桂林”: [“漓江”, “象鼻山”, “阳朔西街”, “龙脊梯田”, “七星公园”, “芦笛岩”, “两江四湖”, “银子岩”],
“重庆”: [“解放碑”, “洪崖洞”, “长江索道”, “磁器口古镇”, “三峡博物馆”, “涪陵武陵山大裂谷”, “乌江画廊”, “丰都鬼城”, “南山一棵树观景台”],
“南京”: [“中山陵”, “夫子庙”, “玄武湖”, “秦淮河”, “明孝陵”, “总统府”, “雨花台”, “南京长江大桥”, “栖霞山”, “南京博物院”]
}
应该是正常的，那可能是我程序的问题，谢谢啦

话题		回复	浏览量
gpt-4o和gpt-4谁强一点？开发调优 ChatGPT , OpenAI , 人工智能 , 快问快答	11	616	2024 年11 月 17 日
最新DeepSeek, 真的超越GPT 4o, Claude 3.5了开发调优 DeepSeek , 人工智能	25	1048	2024 年12 月 27 日
OAI降智好像更严格了搞七捻三 ChatGPT , OpenAI , 人工智能	13	602	2024 年11 月 26 日
关于API以及官网页面的GPT4o 搞七捻三 ChatGPT , OpenAI , 人工智能	21	861	2024 年12 月 5 日
大家体感deepseek对标chatgpt哪一个模型的水平？开发调优纯水	11	908	2024 年12 月 16 日

gpt4o api疑似降智

相关话题