大家还在炒钢丝球吗?我发现了一道新的菜,可以区分gpt-4-turbo(gpt-4-turbo-2024-04-09)和其他gpt4模型

Llama3 70B 煞有介事给了个菜单做法

Llama3 你能指望? 不过说实话其他都还可以.


free的bing表现不错

我用gpt-god低价转发,回答不出来哈哈哈
gpt-god 的 opus 也答不对

opus答不对正常的,opus比gpt-0125强,但是没有turbo强,所以实测确实答不对

不带preview的turbo尝试3次应该是可以答上来至少1次的

1 个赞

号商应该是假的。我问了4次没答上

1 个赞

这个怎么样?

能知道这东西不是个菜,然后给你推荐别的菜,这是真的

用中国菜名测试,觉得不太合理,台湾有个小吃就叫:棺材板, AI 当然有可能认为三合板也有可能是中国的一种小吃, 因为中国的菜名各种奇怪的名字, 诸如老婆饼之类的

AI直呼太难了

佬友说得有道理,这块AI还得针对性训练 :grinning:

没想到bing能做出来

1 个赞

我的plus也会

训练数据里一定是有全部的菜名的,但是一定不会有糖醋三合板这道菜,同时一定会有一些名字接近的菜作为干扰。所以,这时候才能真正的考验模型的能力

之前的鲁迅周树人、西红柿炒钢丝球,这些都已经在上一个版本问过了,所以新的版本会有针对性训练。所以才需要新的菜来评测模型能力

plus用的就是gpt-4-turbo,这个没问题的

直接问gpt-4-turbo-2024-04-09:


plus

坏了。。。一个299永久使用的GPT回答上来了,让我一时间不知道他到底是不是真的。。。。

他都会类似于西红柿炒钢丝球了666,估计是prompt针对这种做菜的做处理了


Perplexity 已经能爬到本贴的讨论了(´・_・`)

1 个赞