首先感谢 chat01.ai 佬的不降智 o1 和 o1 pro 参与本次展示
昨天通过 Sroan 和 灰羽字谜 的串联发现并不能有效区分 o1 / o1 pro 故出此题
使用 Projects 功能,Project 的标题只使用了一个 “?” 以确保最低程度的干扰
85% 能在 Meta 下回答
10~15% 用 LaTeX 回答
0~5% 出错
然后 o1 的话在默认情况下应该就是迷晕了,会提供一个论证类的示例回答。
80% 的灰羽论证
20% 的 LatTeX 回答
之前的没完全控制的案例
同样的提示词,
o1 (0/5) 不会意识到他需要回答话题而自顾自论证;
o1 pro (4/5) 会意识到自己要回答12个回答的问题。
还在改良.jpg
下面是佬友征集部分:
广泛征集 o1 在上面给定的提示词下的过关案例,或者 o1 pro 翻车案例。