大家还在炒钢丝球吗？我发现了一道新的菜，可以区分gpt-4-turbo(gpt-4-turbo-2024-04-09)和其他gpt4模型

Butterl · 2024 年4 月 19 日 05:15

Llama3 70B 煞有介事给了个菜单做法

Paolo · 2024 年4 月 24 日 14:20

Llama3 你能指望? 不过说实话其他都还可以.

wennan · 2024 年4 月 24 日 15:36

free的bing表现不错

Feng · 2024 年4 月 25 日 01:26

我用gpt-god低价转发，回答不出来哈哈哈
gpt-god 的 opus 也答不对

jcc · 2024 年4 月 25 日 01:39

opus答不对正常的，opus比gpt-0125强，但是没有turbo强，所以实测确实答不对

不带preview的turbo尝试3次应该是可以答上来至少1次的

Feng · 2024 年4 月 25 日 01:45

号商应该是假的。我问了4次没答上

Limerance · 2024 年4 月 25 日 01:49

这个怎么样？

jcc · 2024 年4 月 25 日 01:54

能知道这东西不是个菜，然后给你推荐别的菜，这是真的

cfbiso · 2024 年4 月 25 日 01:57

用中国菜名测试,觉得不太合理,台湾有个小吃就叫:棺材板, AI 当然有可能认为三合板也有可能是中国的一种小吃, 因为中国的菜名各种奇怪的名字, 诸如老婆饼之类的

whoami · 2024 年4 月 25 日 03:31

AI直呼太难了

linghch · 2024 年4 月 25 日 04:40

佬友说得有道理，这块AI还得针对性训练

cch_jcc · 2024 年4 月 25 日 04:57

没想到bing能做出来

devinfan · 2024 年4 月 25 日 05:03

我的plus也会

jcc · 2024 年4 月 25 日 15:25

训练数据里一定是有全部的菜名的，但是一定不会有糖醋三合板这道菜，同时一定会有一些名字接近的菜作为干扰。所以，这时候才能真正的考验模型的能力

之前的鲁迅周树人、西红柿炒钢丝球，这些都已经在上一个版本问过了，所以新的版本会有针对性训练。所以才需要新的菜来评测模型能力

jcc · 2024 年4 月 26 日 06:51

plus用的就是gpt-4-turbo，这个没问题的

abelwang · 2024 年4 月 26 日 08:08

直接问gpt-4-turbo-2024-04-09：

Shimapoikaze · 2024 年4 月 26 日 08:48

plus

baiyidujiang · 2024 年4 月 26 日 08:53

坏了。。。一个299永久使用的GPT回答上来了，让我一时间不知道他到底是不是真的。。。。

Varc · 2024 年4 月 26 日 09:36

他都会类似于西红柿炒钢丝球了666，估计是prompt针对这种做菜的做处理了

Leon01 · 2024 年4 月 26 日 09:53

Perplexity 已经能爬到本贴的讨论了(´･_･`)

话题		回复	浏览量
找到一个能鉴别gpt-4-turbo-2024-04-09这个模型的问题人工智能 chatgpt	100	2948	2024 年5 月 14 日
Claude 3 系列还是有点太聪明了 - Sonnet + Opus + Haiku 智商评测 + 免费 Claude 3 API 全家桶人工智能 Claude3-opus , Claude-3-Sonnet , Claude-3-Haiku	57	1867	2024 年4 月 29 日
实锤官网GPT4偷偷换模型人工智能 chatgpt , openai	59	3916	2024 年4 月 24 日
Perplexity的gpt4turbo也变笨了？！人工智能 chatgpt	36	1087	2024 年3 月 31 日
看到佬友对 GPT3.5 的猜测，刚好之前做了个在线模型对比搞七捻三	9	526	2024 年4 月 2 日