又是一个拿灰羽连盟开涮(划掉)玩坏 o1 / o1pro 的抛砖引玉

首先感谢 chat01.ai 佬的不降智 o1 和 o1 pro 参与本次展示
昨天通过 Sroan 和 灰羽字谜 的串联发现并不能有效区分 o1 / o1 pro 故出此题

使用 Projects 功能,Project 的标题只使用了一个 “?” 以确保最低程度的干扰
85% 能在 Meta 下回答
10~15% 用 LaTeX 回答
0~5% 出错

o1 pro

然后 o1 的话在默认情况下应该就是迷晕了,会提供一个论证类的示例回答。
80% 的灰羽论证
20% 的 LatTeX 回答

之前的没完全控制的案例

同样的提示词,
o1 (0/5) 不会意识到他需要回答话题而自顾自论证;
o1 pro (4/5) 会意识到自己要回答12个回答的问题。

还在改良.jpg

o1 pro 的正确案例




o1 的翻车案例





下面是佬友征集部分:

o1 pro 的翻车案例

<Instructions> <content> 解决 Details 中的问题 </content... | OpenAI 01

广泛征集 o1 在上面给定的提示词下的过关案例,或者 o1 pro 翻车案例。

5 个赞

佬友好厉害

2 个赞

测试一下其他站点的o1 pro :tieba_025:

1 个赞

整!但是有两个 Constraints:

  1. 我不知道这道题能不能 o1 pro 全对 o1 全错。
  2. 我整完得先睡了

我只试了一次o1 pro,可能是降智了:tieba_087:

1 个赞

但是这回我控制变量了……在关闭所有自订提示词的情况下在空白项目里提问,我不清楚……

chat01.ai 的 o1 肯定没降,我在排除自己那边的其他变量,抱歉.jpg

赶在8点前没刷新积分,拿Pro试了一下。这是翻车还是正常?思考了55秒。

1 个赞

这应该是正常,我这个可能才是翻车了

1 个赞

强呀大佬!

我好像知道3lue意有所指 :tieba_025:

征集常见 o1 pro 镜像站

我也知道

金主站之外的话,可能知名的也就某水了吧
b站感觉宣传镜像站的多

啊哈哈哈哈哈哈!