关于openai免费用户o1-mini的最新全面测试!

如题,9/17号早上openai突然给所有(应该?)免费用户开放了一个ChatGPT Alpha ,可以使用o1-mini,赶紧来测试一下具体效果吧。

一、界面

image
现在在左上角切换模型时增加了特殊选项。

新版ChatGPT:

原版ChatGPT:

可以看到openai专门给o1-mini安排了特别的问题,看来很有自信啊( ~让我想到了Reflection-llama3.1-70b~ )(以上界面仅限官网有,oaifree没有)

二、测试

  1. strawberry有几个’r’?
    我分别给o1-mini和gpt-4o发了3遍问题,很奇怪的是,他们的回复完全类似,都是只有2个’r’。
    但是用官网上的问题按钮

单词 strawberry 中有多少个字母 r?

就可以正确回答。(甚至我把问题完全原文复制下来单独发给o1-mini 和 直接点击按钮 的回答都是不同的)



这里仅列出一部分,并且根据我的测试,给gpt-4o/gpt-4o-mini问10遍问题也不会正确回复3个

  1. 其他论坛佬友提出的鉴别o1的问题
    如何鉴别使用的是否为正版 o1
    我基本都试了一遍,全都是秒回,且明显不是o1,这里就不列了,包括让它输出提示词也是GPT-4o的提示词。

  2. 其他测试
    (1)我想它有没有可能是点击官网按钮才会召唤出o1-mini答题,所以进行了如下测试:


    即开头用了按钮后续也不是o1-mini回答。

(2)它是不是背答案?选了一个比较长的官网按钮问题。


还是有点不同的(而且最后的答案也不一样)

(3)直接点击重试的答案也会不同:


三、总结

根据我的实验,截止9/17 早上11-12点,只有直接点击官网问题按钮回答的才会明显不同,像是o1的回答,但是也没有思考过程和时间,其他任何方式都只是gpt-4o回答,并且oaifree也无法使用o1-mini。

综上:这玩意毛用没有,估计只是前端写了个界面,等后续更新吧。(╯°□°)╯︵ ┻━┻

P.S.

测试这堆东西花了我4个普号,主要是只能在官网测,没法用始皇的无限4o黑科技,如果觉得全面的话就点个赞吧。
(还有我都不知道这篇放哪个分区合适(>﹏<))

4 个赞

真是认真啊,差点被骗了。

看来就是一个前端页面。不过官方有说 o1 mini 后续是会开放给所有用户免费额度的

2 个赞

开了个临时聊天,这个α模型颜色都不一样,但是实测回答问题就会跳转到4.o模型,现在感觉没什么用。

是o1的,最明显的特征就是数学推导能力,问它这个问题

E^i_{\text{jerk}}= 49152\cdot\delta_i^2\left[ \left( \frac{c_i-3}{c_i+5} \right)^2 + 3\tan^2\left( \frac{\alpha_i}{2} \right)\left( \frac{1-c_i}{c_i+5} \right)^2\right]

令曲线jerk能量最小,得到对应的 c_i 为多少?

这个涉及到多步推导,大部分模型都会在中间推错,只有o1系列能完全一步步推对。

2 个赞

实际上这一题很明显背答案了,因为 Plus 的 o1-mini 一样会回答错误。

普号的目前是假的呀

1 个赞

跟我简单测评的结果一致呢

可能模型的英文水平更高点,中文欠佳,使用英文提问几次全部正确