Llama3 70B 煞有介事给了个菜单做法
Llama3 你能指望? 不过说实话其他都还可以.
我用gpt-god低价转发,回答不出来哈哈哈
gpt-god 的 opus 也答不对
opus答不对正常的,opus比gpt-0125强,但是没有turbo强,所以实测确实答不对
不带preview的turbo尝试3次应该是可以答上来至少1次的
1 个赞
号商应该是假的。我问了4次没答上
1 个赞
能知道这东西不是个菜,然后给你推荐别的菜,这是真的
用中国菜名测试,觉得不太合理,台湾有个小吃就叫:棺材板, AI 当然有可能认为三合板也有可能是中国的一种小吃, 因为中国的菜名各种奇怪的名字, 诸如老婆饼之类的
AI直呼太难了
佬友说得有道理,这块AI还得针对性训练
我的plus也会
训练数据里一定是有全部的菜名的,但是一定不会有糖醋三合板这道菜,同时一定会有一些名字接近的菜作为干扰。所以,这时候才能真正的考验模型的能力
之前的鲁迅周树人、西红柿炒钢丝球,这些都已经在上一个版本问过了,所以新的版本会有针对性训练。所以才需要新的菜来评测模型能力
plus用的就是gpt-4-turbo,这个没问题的
他都会类似于西红柿炒钢丝球了666,估计是prompt针对这种做菜的做处理了