几天用下来,大家感觉Claude 3.5 Sonnet和3 Opus相比如何?

除了响应速度确实快了,我个人测试的几个项目怎么感觉还不如之前的3 Opus?

个人案例包括几道逻辑测试题,一个几何题,一个文本总结任务。前面的测试题3.5 Sonnet有比3 Opus表现好的,但表现差一些的更多。几何题思路对了,但出现了一个以前不会出现的计算错误(乘除法算错了)。文本总结任务,3.5 Sonnet比3 Opus总结字数多了一些,但质量差一些,甚至出现了一个归类错误(ps. 论总结都远不如gemini 1.5 pro)

怎么感觉综合起来还没3 opus稳?3.5 Sonnet来自vertex的渠道,用大佬的项目转api出来用的。opus的测试结果则来自以前的you.com

你们感觉呢?

2 个赞

没有3.5sonnet

文科明显不如opus了

1 个赞

您是花钱接码搞帐号的吗,确实有必要去体验一下吗?
搞到帐号后续会不会容易被封?

你正常使用封你干嘛…

你是问3.5 Sonnet?我是用的谷歌vertex ai那个试用的150美元赠金,然后用这个项目(链接)转api出来用的

api和官网差距好像很大

2 个赞

感觉类似于4o和4的区别吧,4的智商个人感觉更高一些,但是4o快且便宜。

1 个赞

同感

来自官网TeamPro订阅/Aws Bedrock:3.5son逻辑完全高于3opus,还多了一个数据库更新的优势

真感觉有点像买家秀卖家秀的区别一样,可能是官网的预置prompt更多,temperature或者其他参数有微调吧,而且还带了 Artifacts

opus就是一个字,贵。在某些情况感觉网页版的Claude 3.5 Sonnet要比普号网页版的gpt4o要回答更好点,但是太抠了问几条就无了,gpt4o又是问多了可能会卡在某个bug上,刚好可以拿3.5Sonnet换个思路,结合一下刚好优势互补,话说要是这个能c就好了

文科类的任务还得是Claude 3 Opus。

没错,写作还得用上opus

我测试也感觉数学逻辑不如3 opus

文科类任务,opus写得会更有创意一些,3.5输出非常稳定且重复

又试了了几个其他渠道,我现在是感觉vertex这个渠道的3.5 sonnet模型质量似乎有点问题,其他地方的表现都比它强,不论是官网还是其他api

再3.5也是sonnet,建议等3.5opus出了再跟3opus比,模型大小差距没办法弥补吧。

主要是3.5sonnet便宜,要是能打opus的话就真香了 :joy:

我是官网付费的版本,我觉得3.5 Sonnet并不如 3 Opus