感觉 GitHub Copilot 上的 o1 和 o1-mini 特别蠢...

timmm (timmm) 2024 年12 月 25 日 02:59 1

这段时间在 VSCode 和 web 上用 GitHub Copilot，感觉 copilot 上的 o1 和 o1-mini 跟智障一样… 之前在 VSCode 里面帮我改代码有时候会乱改，或是把我完整的代码改成半成品 (用 copilot edit 编辑代码文件，原本完整的函数实现被删掉，换成像是 # 这里是xxx 的实现... 的注释…)

而且问答也不太对劲，回答明显不如 4o，claude 3.5 sonnet，gemini experimental 1206 等模型

刚刚写代码的时候问了一个问题，就顺便去做了点对比。

prompt 都一样，完整的代码和报错信息直接写在 prompt 里面了，方便粘贴。

这是 GitHub Copilot 上的 o1

这个回答完全没有帮助，因为我的 conversation_chain 里面早就塞满 async/await 了。感觉完全没看我贴的代码。

这是 GitHub Copilot 上的 o1-mini
这个回答是错的，错的很离谱。 task.canel() 函数是确实会回传 boolean 值的。这不是什么新特性，都是Python 常年的特性。其他 AI 也答的对。

(而且不知道为什么我prompt 是中文的，他忽然就用英文答了)

回答质量明显不如论坛的 o1-mini (话说为什么明明对话界面选的是 o1-mini，回应这边显示的却是 4o-mini ？)

这两个甚至答的还不如 GitHub Copilot 上的 GPT-4o 和 claude 呢… 虽然 4o 答的也不对，但起码给了代码，而且错的没 o1 和 o1-mini 离谱。

这是 Gemini Experimental 1206 的回答 (不过我写了 Python 的系统提示词)

加了我特调的系统提示词的 Gemini 就很猛了，详细了分析了问题，给出了改进的完整代码，还讲解了改进的代码。

感觉像是被限制了输出长度或是系统提示词写砸了，又或者… GitHub Copilot 上的 o1 和 o1-mini 是真的 o1 和 o1-mini 吗…

好奇我在写什么的，我在重构我的开源项目 (图穷匕见)，是一个能与本地大模型语音交流 (包括语音打断)，还有 Live2D 动画小人的项目。目前正在经历大规模的重构，包括前后端的重写。

2 个赞

SCzheng (郑御白) 2024 年12 月 25 日 03:03 2

阉割的,上下文估计就一点

handsome (大帅哥) 2024 年12 月 25 日 03:04 3

限制上下文了

2171 (唐三藏) 2024 年12 月 25 日 03:14 4

论坛的机器人名字是"gpt-4o-mini"跟模型无关

Qiner (林黛玉倒拔垂杨柳) 2024 年12 月 25 日 03:17 5

Github Model 那个只有 4K 上下文，思考也算上下文的话就是卵用都没。纯备用的。

1 个赞

Sam_Altman (山姆奥特曼还钱) 2024 年12 月 25 日 03:20 6

这么拉胯.

naihe (naiher) 2024 年12 月 25 日 03:23 7

很拉胯，我有好几个key都没用

timmm (timmm) 2024 年12 月 25 日 03:31 8

这不是 GitHub Models 的那个，这个是 GitHub Copilot 的 o1 和 o1-mini。GitHub Models 那个我 prompt 都丢不进去 (我prompt 有 5k token)。

WaterKing (tc) 2024 年12 月 25 日 03:39 9

有点羡慕你们gayhub有o1的

话题		回复	浏览量	活动
用了几天gemini，发现数学和代码能力远不如o1模型。Google还需加油啊搞七捻三人工智能	27	807	2024 年11 月 25 日
一道小五奥数题，o1，Kimi数学版，豆包全军覆没，我懵了开发调优人工智能	62	1745	2024 年12 月 21 日
Gemini 2 Flash 出思考版了，Arena上并列第一前沿快讯人工智能	22	871	2024 年12 月 20 日
一道题搞趴所有人工智能（4o除外）搞七捻三人工智能 , 快问快答 , 纯水	52	546	2024 年12 月 15 日
关于o1的发现开发调优 OpenAI , 人工智能	41	2309	2024 年12 月 12 日