Terrasse
(Terrasse)
2024 年12 月 12 日 18:31
1
省流:高级语音模式支持实时视频输入
启动高级语言模式时,可以开启摄像头,模型可以根据视频画面实时提供帮助
可以共享手机屏幕画面作为视频输入
plus和pro订阅用户都将获得升级了视频功能的高级语言模式
官方训练了一个“圣诞老人”的角色可以与之对话,具有单独的使用额度
评价
一言难尽。
从科研人员的角度来讲,多模态实时对话其实是很难做的(直播中展示了模型可以recall一段时间之前介绍给它的人脸,说明是具有实打实多模态上下文的),对模型能力和算力要求都不低,我非常好奇OpenAI是如何做到把这样的功能开放给那么多用户。把这些做出来真的不简单。
但是,从用户或投资方的角度,OpenAI不过是兑现了一个早就画出来的饼 。一定会有很多人这样讲:“不就是语音对话模式加了个图像吗?而且9月份就见过了啊。OpenAI真没劲!” 这也是无可辩驳的事实。
我个人常常会想,我们是否对于OpenAI(乃至其他AI公司,尤其是国内几家)过于苛责 了?我们总是希望他们能在几个月内就拿出亮眼却又成熟好用的新功能。但这个领域是如此的稚嫩 ,和其他早已成熟、有着十余年以上积淀、学术界与工业界之间形成了一套成熟的落地流程 的体系是不同的。很多我们看到并立刻上手尝鲜的新功能,可能今年上半年还只存在于实验室。行业前沿的科研,哪有两三个月就出一个突破性成果的呢?
经过以上的反思,我认为不应该苛责OpenAI拿不出每天一个一共12个划时代的突破性成果,其问题在于一再打肿脸充胖子,进行夸张不切实际的营销 。
L站有许多佬友和我一样不断追着热点,去体验各种新技术。我相信这两年AI的进展和普及已经比以往任何科技革命都要迅速了,让我们耐心等待它们成长吧 。
26 个赞
wyshain
(wyshain)
2024 年12 月 12 日 18:35
3
感觉只能回答一些很基础的问题,应该不是理解了视频,更像截图
2 个赞
Terrasse
(Terrasse)
2024 年12 月 12 日 18:52
5
有可能。直播中并不能看出模型对视频到底理解到什么程度,唯一有一点好像是它能判断水壶有没有在倒水出来?(记不太清了)
这个只能等能用之后实测一下。
Terrasse
(Terrasse)
2024 年12 月 12 日 18:54
6
当时没太听清
好像是一周之内,然后Santa是当天上线
1 个赞
我猜就是给GPT增加了一个查看视频图像的外部函数,GPT觉得需要的时候可以取一张图放进上下文,如此而已
wadewej
(edawrz)
2024 年12 月 12 日 23:26
8
今天早上试了一下,多了一个圣诞老人的语音聊天,没有视频功能,安卓手机
1 个赞
ZvgBbW
(ZvgBbW)
2024 年12 月 13 日 00:14
9
google的stream realtime已经可以做到了,而且速度还很快
2 个赞
abcde2
(douzi)
2024 年12 月 13 日 01:18
12
确实不应该过分苛责。如果谁的AI能力强就对其他AI弃如敝履,那很快就会出现一家独大。须知现在你追我赶的局面正是充分竞争的结果。
对于OpenAI画大饼、过分营销,我认为也应该理解,它才是实打实的ALL in AI,它没有其他业务支撑的,不搞营销圈投资、圈用户,怎么持续发展?sam的worldcoin也不是什么赚钱的公司。
所以从这个角度,sam把公司变成盈利性的都是别无选择的,换作任何人都一样。
#补充一下 :但偷摸降智,这个无法原谅。
5 个赞
dtemiemie
(dtemiemie)
2024 年12 月 13 日 03:33
13
辩证的,我挺喜欢充分竞争,这样可以避免一家挤牙膏。
降智是特别膈应人的,虽然去年所谓“降智”在国外叫“偷懒”,一方面是算力因素,另一方面就是本身不支持地区。但是作为少数不支持国家,无论是Plus还是Pro,其实都是无售后的,只能自己摸索对抗,体验自然是不好的。
leioukupo
(leioukupo)
2024 年12 月 13 日 04:29
15
截图的话,之前始皇就已经写了一套,能达到类似的效果