和ChatGPT打个视频电话 - OpenAI 12 Days - Day 6

省流:高级语音模式支持实时视频输入

  1. 启动高级语言模式时,可以开启摄像头,模型可以根据视频画面实时提供帮助
  2. 可以共享手机屏幕画面作为视频输入
  3. plus和pro订阅用户都将获得升级了视频功能的高级语言模式
  4. 官方训练了一个“圣诞老人”的角色可以与之对话,具有单独的使用额度

评价

一言难尽。

从科研人员的角度来讲,多模态实时对话其实是很难做的(直播中展示了模型可以recall一段时间之前介绍给它的人脸,说明是具有实打实多模态上下文的),对模型能力和算力要求都不低,我非常好奇OpenAI是如何做到把这样的功能开放给那么多用户。把这些做出来真的不简单。

但是,从用户或投资方的角度,OpenAI不过是兑现了一个早就画出来的饼。一定会有很多人这样讲:“不就是语音对话模式加了个图像吗?而且9月份就见过了啊。OpenAI真没劲!” 这也是无可辩驳的事实。

我个人常常会想,我们是否对于OpenAI(乃至其他AI公司,尤其是国内几家)过于苛责了?我们总是希望他们能在几个月内就拿出亮眼却又成熟好用的新功能。但这个领域是如此的稚嫩,和其他早已成熟、有着十余年以上积淀、学术界与工业界之间形成了一套成熟的落地流程 的体系是不同的。很多我们看到并立刻上手尝鲜的新功能,可能今年上半年还只存在于实验室。行业前沿的科研,哪有两三个月就出一个突破性成果的呢?

经过以上的反思,我认为不应该苛责OpenAI拿不出每天一个一共12个划时代的突破性成果,其问题在于一再打肿脸充胖子,进行夸张不切实际的营销

L站有许多佬友和我一样不断追着热点,去体验各种新技术。我相信这两年AI的进展和普及已经比以往任何科技革命都要迅速了,让我们耐心等待它们成长吧

26 个赞

圣诞老人蛮有活力的,挺英国文学有声书一样 :rofl:

5 个赞

感觉只能回答一些很基础的问题,应该不是理解了视频,更像截图

2 个赞

新功能什么时候上线

1 个赞

有可能。直播中并不能看出模型对视频到底理解到什么程度,唯一有一点好像是它能判断水壶有没有在倒水出来?(记不太清了)
这个只能等能用之后实测一下。

当时没太听清 :disappointed_relieved:
好像是一周之内,然后Santa是当天上线

1 个赞

我猜就是给GPT增加了一个查看视频图像的外部函数,GPT觉得需要的时候可以取一张图放进上下文,如此而已

今天早上试了一下,多了一个圣诞老人的语音聊天,没有视频功能,安卓手机

1 个赞

google的stream realtime已经可以做到了,而且速度还很快

2 个赞

发布了,我还是没有。
google还是好人啊

就。。一般。。

确实不应该过分苛责。如果谁的AI能力强就对其他AI弃如敝履,那很快就会出现一家独大。须知现在你追我赶的局面正是充分竞争的结果。
对于OpenAI画大饼、过分营销,我认为也应该理解,它才是实打实的ALL in AI,它没有其他业务支撑的,不搞营销圈投资、圈用户,怎么持续发展?sam的worldcoin也不是什么赚钱的公司。
所以从这个角度,sam把公司变成盈利性的都是别无选择的,换作任何人都一样。

#补充一下:但偷摸降智,这个无法原谅。

5 个赞

辩证的,我挺喜欢充分竞争,这样可以避免一家挤牙膏。
降智是特别膈应人的,虽然去年所谓“降智”在国外叫“偷懒”,一方面是算力因素,另一方面就是本身不支持地区。但是作为少数不支持国家,无论是Plus还是Pro,其实都是无售后的,只能自己摸索对抗,体验自然是不好的。

显燃openai的多模态龍力远远于谷哥 :crazy_face:

截图的话,之前始皇就已经写了一套,能达到类似的效果