ChatGPT新模型 o1-preview | 编码数学能力增强 | 中转站的O1是否保真测试

fangyuan99 · 2024 年9 月 13 日 04:06

问题:

有一个无限序列，从第 1 项开始，分别为 1,2,1,1,2,3,4,3,2,1,1,2,3,4,5,6,5,4,3,2,1
dd 想知道，第 n 项是多少
用 Java 实现，main 函数直接输出前 30 项

fuclaude（没找对规律）

image1920×971 89.8 KB

image2121×888 75.3 KB

plus由vv佬提供

gpt-4o （思路不对）

image2193×869 77.4 KB

image2521×1154 166 KB
gpt-4(思路对了，代码不对)

image2560×1294 227 KB

image2560×1294 317 KB
o1-mini(一遍过，牛逼！)

image2560×1294 300 KB

image2560×1294 222 KB
o1-preview(也是一遍过)

image2560×1294 204 KB

image2560×1294 327 KB

SCzheng · 2024 年9 月 13 日 04:08

编码和逻辑思考应该是有一些提升

user135 · 2024 年9 月 13 日 04:46

claude 答案对么

public class InfiniteSequence {
    public static int getSequenceItem(int n) {
        if (n == 1) return 1;
        
        int sum = 1;
        int i = 2;
        while (sum < n) {
            sum += 2 * i - 1 + (i - 1) * (i - 1);
            i++;
        }
        i--;
        
        int posInSubseq = n - (sum - (2 * i - 1 + (i - 1) * (i - 1)));
        int middlePoint = i;
        
        if (posInSubseq <= middlePoint) {
            return posInSubseq;
        } else {
            return 2 * middlePoint - posInSubseq;
        }
    }
    
    public static void main(String[] args) {
        for (int i = 1; i <= 30; i++) {
            System.out.print(getSequenceItem(i) + " ");
        }
    }
}

prompt

在回答问题之前，请在 <thinking></thinking> 标签内逐步思考。然后，在 <answer></answer> 标签内提供你的最终答案。


有一个无限序列，从第 1 项开始，分别为 1,2,1,1,2,3,4,3,2,1,1,2,3,4,5,6,5,4,3,2,1
dd 想知道，第 n 项是多少
用 Java 实现，main 函数直接输出前 30 项

fangyuan99 · 2024 年9 月 13 日 05:11

错的离谱，负数都出来了。。。
可以用菜鸟工具验证 https://www.jyshare.com/compile/10/

handsome · 2024 年9 月 13 日 05:29

总感觉就是，有提升，但不多

errsa · 2024 年9 月 13 日 05:32

试了一下，claude 3.5 sonnet的代码有问题，但是它找到了规律，输出了最终的结果【代码放在你的菜鸟工具里面验证得到的结果是错的】。

o1-preview给出的代码能跑出正确结果，但是表述给出的输出是错的。

starkvber · 2024 年9 月 13 日 05:34

DeepSeek-2.5也可以答对

fangyuan99 · 2024 年9 月 13 日 05:35

自己运行一下就知道不对了

lucas2024 · 2024 年9 月 13 日 05:35

牛逼，确实厉害

barrylongface · 2024 年9 月 13 日 05:36

神奇的sonnet，代码是错的，但是答案是正确的。
而且让他给个Python代码，也是同样的结果。

starkvber · 2024 年9 月 13 日 05:37

代码是错的，但是回答页面输出的结果又是正确的

Butterl · 2024 年9 月 14 日 03:09

怎么感觉实际代码能力是下降的？

SCzheng · 2024 年9 月 14 日 03:10

代码应该是mini比较强

话题		回复	浏览量
如何鉴别使用的是否为正版 o1 搞七捻三人工智能	43	1877	2024 年10 月 29 日
4o和o1模型coding测试题和o1渠道测试开发调优 ChatGPT , 人工智能	6	533	2024 年9 月 15 日
Gemini 1.5 Pro 002 有点厉害，能答对之前只有o1才能答对的题搞七捻三人工智能	23	1286	2024 年10 月 12 日
两个目前只有ChatGPT O1才能答对的问题搞七捻三人工智能	19	689	2024 年9 月 14 日
O1要思考多久?? 搞七捻三人工智能 , 快问快答 , 纯水	25	893	2024 年10 月 2 日

ChatGPT新模型 o1-preview | 编码数学能力增强 | 中转站的O1是否保真测试

相关话题