gpt-4o-latest、claude-3-5-sonnet-latest和gemini-exp-1206哪个在编程问题方面效果最好

大佬们,问一下API版的gpt-4o-latest、claude-3-5-sonnet-latest和gemini-exp-1206哪个模型在回答编程方面的问题效果最好?

  • gpt-4o-latest
  • claude-3-5-sonnet-latest
  • gemini-exp-1206
0 投票人

编程claude比其他模型强一个档次

claude-3-5-sonnet, 这是真没办法,其他的太弱了,很多编程应用全是围绕 claude
开发的,简直是断代级的领先

有Claude用Claude,没有就看 livebench.ai

必然是claude

剩下两个只能做下辅助

为啥呢?最近看坛里不是说gemini-exp-1206比肩o1吗?我自己用的不多,所以很好奇到底哪个模型效果好 :tieba_087:

gemini-exp-1206 比肩 o1 也只是说思考解决难题的问题,并不代表能解决编程问题,也并不代表编程能力强,o1 本身的编程能力可以说是一般般,claude 编程能解决很多问题而且限制也少

有CoT,推理能力强了,编程能力不应该相应地会更好一些吗?

有思维链不代表编码能力强,就像文科生和理科生的区别一样,你要首先知道现在这些 llm 的原理,大语言模型本质上就是一个转盘老虎机,文字生成全靠概率预测,是很吃训练数据的,训练数据偏向哪方面,大模型哪方面能力就强,而且有思维链也不是说真的在思考,只是本身多次迭代纠正错误

2 个赞

感谢佬,受教了

o1>克劳德>4o>其他…

1 个赞

必须是Claude

那必然是claude-3-5-sonnet

还是习惯用o1,感觉o1比较严谨,Claude很好但是你稍微质疑他他就可能改个错的办法出来