体验了Openai的实时语音,感觉挺不错的(除了太贵)

首先最大的缺点:

gpt-4o现在2.5美刀1M,语音200美刀1M,简直是抢劫。我随便说了几句话,三美元就没了,二十多啊 :sob:(然后我就去用API站了)

还有个问题,他还是以英语为主,中文识别有一些误差,而且口音很奇怪,给人一种老外学中文的感觉

剩下的全是优点,我一个一个说:

响应速度快:得益于直接识别语音而不是语音转文字,他已经能以平常对话的语速和你交流了,跟小爱同学那种还得等他转圈圈差太多了

有语调变化:可以让他改变语速、音调,再也不是那种冷冰冰的机械音(相信大家打客服电话都听过)

比语音助手智能:毕竟还是gpt-4o的基础,虽然离真人还有一定空间,不过比纯百度要强得多,毕竟你可以随时提问,相当于一个非常有耐心的一对一辅导

可以被打断:这一点很重要,比如你觉得他说的太啰嗦,或者有问题,你直接说话就行,他会立刻停下来听你,然后再接着你说的回答

识别功能强:经我测试,它可以识别出我的语气、语速、说话清晰还是模糊,从这里也能看出他跳过了语音转文字的过程,直接识别了我的语音

我觉得他最大的应用就是智能语音助手,这次我就实践了一次,用它辅助我把麦克风从电脑切换回我的耳机,然后还测试他能不能识别出我是再用哪个麦克风在和他对话。事实证明他虽然不是很智能,比较啰嗦,但还是可以帮我完成工作的,而且也能准确分辨出来这两种麦克风给他的语音区别。

最大的好处就是我可以一遍和他对话,一遍操作,完全不用像曾经那样还得做一步再切换回百度看下一步,直接全程语音指导

我对Openai的实时语音还是抱有很大希望的,有了它不难想象能节省多大的麻烦 :+1:

但现在还是太贵,我这说了几十分钟,160美元的余额就没了,幸亏我这家是0.1人民币一美元,否则把裤衩都亏没了 :sob:

35 个赞

资源荟萃搞七捻三

夹带私货 :face_with_monocle:

7 个赞

没带啊,我说的都是大实话,而且我也专门没把那个API站发出来,就是为了避免广告嫌疑

3 个赞

想要链接,可以私我一下吗。研究一下 0.1 的是啥样的

不过感觉确实贵,想知道你怎么用的,可以接入openwenui这些了么

1 个赞

我直接用的别人的前端,是这个

2 个赞

请问模型是啥?我在Azure OpenAI 里好像也看到过

佬,我填了接口和key,显示websocket 连接服务器错误?

看看怎么个不错法

gpt-4o-realtime-preview,或者那个带日期的,我这个中转站之所以这么便宜,就是用的Azure

1 个赞

没遇到过,试试本地部署一下?下个安装文件也行

或者说开梯子?要是你用官方正版的API Key必须要开梯子

直接开plus就好了,你这样高强度用不如20美元一个月

我就试试,真没想到这么贵

plus的20美元太贵了,不值当的,以后等高级语音降价了再用用,现在一般情况下还是打字

gpt-4o-audio-preview和gpt-4o-realtime-preview有啥区别

我说错了,应该用realtime

官方原文:

How is audio in Chat Completions different from the Realtime API?

The underlying GPT-4o audio model is exactly the same. The Realtime API operates the same model at lower latency.

字面理解,那就是audio是没有实时功能的阉割版,realtime是完整版

现在用是可以用了,但是ios chrome实时语音时默认用的是听筒,声音巨小,根本没法切换到扬声器。请问下佬这边使用正常吗? ios还是安卓呢还是其他设备?

用的时候还以为几小时重置试用,用完了才发现是 1 个月后才能用。

我是用的电脑,那个链接就在上面,你可以试试

如果真没办法切换的话,连个蓝牙耳机呢?我看网上的视频基本都是免提,没有用听筒的

我看plus的限制好像是15分钟,合着这个15分钟是一个月的,不是一天的?那这也太坑了吧