🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】

AI语音输入法 vs 普通语音输入法

AI语音输入法的定义:使用gpt-4o-transcribe等最新原生多模态听写模型的输入法,一般是包月收费的,例如CleverType,WisprFlow
普通语音输入法的定义:使用上一代语音识别技术的输入法,一般是免费的,例如讯飞输入法,搜狗输入法,百度输入法,谷歌输入法,微软输入法
普通语音输入法中英混说识别率都很低,都没有去除口头禅功能
普通语音输入法如果不进行人工修改的话,其他人一看就是语音录入的,痕迹是非常明显的。
测试方法:内容都一样,就是中英交叉,念一遍七个AI的名字+混入口头禅
现在我觉得口头禅问题是语音输入法的第一大问题,以前不录音,不知道自己说话会有这么多口头禅和废话
尤其是在边思考边创作边说话的时候,大脑思考速度很可能是跟不上嘴说话语速的,这时候为了避免冷场尴尬,人就会下意识的说一些废话,例如这个,那个,嗯,好,是吧,就是说,等来填充冷场时间,
当然可以通过训练,来改变这个说话习惯,很多好的演讲者,他就没有说口头禅习惯,但这并不是天然的,是需要经过大量的刻意的训练才能养成的习惯

⊚CleverType(原生多模态AI语音输入法):基本全对

我这篇文章就是用这个输入法语音写的

⊚WisprFlow(原生多模态AI语音输入法)

识别率较高,但不如CleverType,当然也可能与在PC上测试,麦克风距离和风扇噪音有关

⊚讯飞输入法语音:翻车

⊚搜狗输入法语音:翻车

⊚百度输入法语音:翻车

⊚微信留言识别:翻车

微信的发完语音再转文字功能,识别率极低
而微信的发语音当场转文字功能,貌似使用了不同的模型,识别率中等
奇怪的是,当场转和事后转,识别率貌似不同


⊚谷歌GBoard输入法语音:翻车

谷歌GBoard语音输入法,应该是全球最大输入法之一了,playstore 100亿次下载,然并卵,一样翻车


⊚微软SwiftKey输入法语音:翻车

⊚苹果输入法语音:未测试

AI语音输入法 vs 大模型App自带的语音留言

因为我经常手机用ChatGPT,Deep research,元宝版DeepSeek等,经常出现识别率低的问题,问题都一堆错别字,答案自然也是错的
打算用第三方AI语音输入法代替ChatGPT等自带的语音留言功能,识别率会大大提升
这里不讨论实时语音通话功能。为了立即响应,实时语音不支持推理模型,回复内容短,必须要求联网才会联网,用来提问远没有语音留言+推理+联网+字数多实用

ChatGPT语音留言:翻车


连ChatGPT自己的语音留言识别率都这么低,这你能信?
说明ChatGPT自己的语音留言,都没有调用4o-transcribe模型,不知道用的啥模型

Gemini语音留言:史诗级翻车

豆包语音留言:翻车

待上传图片

元宝语音留言:翻车

其他大模型:连翻车的机会都没有

Grok和Copilot App根本就不支持语音留言
Claude App的语音留言不支持中文

AI语音输入法推荐

⊚CleverType

安卓/iOS/Chrome,无Win/Mac版,
$6/月,$54/年,首2月半价。在安卓app里内购,会显示第一个月$3,网页买没有优惠,iOS不清楚
免费累计试用2000字,会员不限量
使用4o-transcribe api
貌似没有学生优惠
下载渠道:安卓:PlayStore等。iOS:AppStore,佬友说国区也有

主要优点

识别率高

录音中本来有大量口头禅,都已经被去掉了,识别基本都对,标点符号准确
这个输入法使用ChatGPT 4o transcribe这个api,所以它的识别率,去除口头禅的功能,跟VoiceNotes是一样的
这个输入法我感觉甚至比我电脑键盘打字的错别字比率还要低,因为打字经常会有同音词的情况,或者是按错了键。但是语音AI输入法,它其实是用大模型把你的打的内容推理了一遍,你那些错别字什么它已经给改过来了。
现在用习惯AI语音识别后,再用这个搜狗,讯飞,百度,语音输入法实在识别识别率太低了,简直无法忍受,尤其是中英混合识别率,以及不能去除这个口头禅的问题

去除口头禅,加标点,润色

次要优点

边录入,边GPT提问功能

可以把问题录到任意地方,按GPT按钮直接提问,回答可以一键上屏。
属于附赠的功能,并没有按大模型收费
提问不支持联网,不支持推理模型,估计是用的4o或4o-mini模型

貌似可以拼车(未大量试验)

我试两个安卓手机可以同时登录同一CleverType账号,包月貌似也没有限时,就是说应该可以拼车的
不会像微信那样登录一个手机,另一个手机就挤掉线

次要缺点

没有拼音键盘

现在没有中文键盘
其实有个中文"郑码"键盘,不是拼音键盘,"郑码"是一种Windows8之前,Windows系统内置的形码输入法
其他语言键盘也支持几十种,说明开发者是有国际化意识的,未来还是有可能有中文键盘的
方法:Ⓐ比如说你要上面加什么字(例如加"三"字,单说一个字同音字太多),你就说一个包含这个字的单词或者句子(张三),然后把多余的字删掉就行了,这其实跟你打字的速度差不多。
Ⓑ使用短语快捷键功能,例如zs=张三
Ⓒ切换到讯飞搜狗上打字

不支持自动执行自定义提示词

所有自定义提示词都要手动点按钮才会生效,并不会自动生效

没有同音词和专有名词词典功能

就是不能自动替换掉同音词,自己加专有名词(例如姓名)
方法:用自定义提示词,加入同音词和专有名词,手动按按钮替换

没有PC版

这个输入法暂时没有Win或Mac版,有Chrome插件可以在网页,论坛,网页版笔记打字,但不能在PC微信/钉钉里打字
其实PC上并不是太需要语音输入,因为键盘如果能盲打,速度也挺快的,如果一定要在PC上浏览器以外用语音输入,估计用安卓模拟器运行钉钉/微信+CleverType是可以的

有少量的时候会识别成繁体中文

因为这个软件并没有自动生效的全局系统提示词的功能,如果有这个功能,就可以把要求输出简体中文这个写进去。
办法:建一个自定义提示词,然后如果发现出现繁体的情况,就运行一下这个提示词就可以了,就是按钮按一下,也不算麻烦。

需梯子

例如SSR里要设绕过大陆和局域网。一般不要选全局模式,会导致所有流量全部走梯子,速度慢,费流量。

⊚WisprFLow

iOS/Mac/Win,没有安卓
$15月,$144/年,学生半价+试用三个月
免费版每周2000词,会员不限量

⊚WhisperKeyboard

,国产,只有Mac,自称用开源Whisper,不过Whisper开源版已经是比较老的语音识别模型了,后面新版都没有开源

号称AI输入工具,实际作为输入法并不好用的

⊚Grammarly
⊚Voice Typing
⊚AI Chat Keyboard

为什么这些AI语音输入法都是国外的?

国内的多模态大模型技术,比ChatGPT落后1~2年,中国现在的语音识别率和朗读自然度,还达不到2024年GPT标准语音的水平,只有豆包的语音技术好一点,DeepSeek根本就不做多模态和语音
所有国内的AI输入法,都有个共同问题,就是它受中美法规限制,两个国家都要求,中国App禁止接入GPT的语音模型

输入法付费值不值?为什么说免费输入法识别率不可能太高

这类AI输入法,跟AI笔记一样,肯定是要收费的,因为ChatGPT语音API的成本就是每小时0.36美元
CleverType输入法是每月六美元,每年$54,折合¥1.1/天
绝大部分免费语音输入法,包括微软,谷歌,讯飞,百度,搜狗,根本就不是"ai语音"输入法,并没有使用多模态大模型技术,与使用whisper或4o-transcribe模型的语音输入法,是有技术代差的,从本质上就很难解决中英混输和口头禅问题,因为中英混输和口头禅需要利用大模型的智力进行推理,而不仅仅是靠"听力"
其实判断输入法的识别率,最简单的方法,就看是收费还是免费的就行了,免费的识别率就不可能太高。笔记语音识别大模型API不便宜,4o-transcribe折合¥2.7/小时,怎么可能给你白嫖
但是考虑很多人每天要在手机上花几十分钟,甚至一两个小时打字,写笔记,微信,钉钉,AI提问等,输入法大概是一个人使用频率最高的App,如果真有好用的输入法,付点费也是值得的,按照小时均摊下来,成本也不高,例如每天打字一小时,那成本就是¥1.1/小时
低识别率的语音输入法+改错字,去除口头语,发现错字撤回重发,加起来的时间,可能是一个识别率高的输入法的两倍甚至三倍时间。
更不要说情绪损失,别人(尤其是同事上级老板)看到你用讯飞一类识别率低的语音输入法,有大量错别字/口头禅,给人一种马虎,随便,不负责,没文化,学历低的负面印象,这也是个人品牌损失

AI语音输入法 vs AI语音笔记

AI语音笔记,例如VoiceNotes,SoundType,Tana Voice Memo,Plaud(硬件),Limitless(硬件)

相似性

理论上,一个优秀的AI语音输入法,加上任何一个非AI笔记软件。都相当于AI录音笔记软件
如果预算有限,或者使用AI语音笔记频率低,可以只买AI语音输入法,代替AI语音笔记。

只有AI输入法能做的

在微信,钉钉等任意App里打字
录音当时看到内容:VoiceNotes要录制结束,上传后才能看到正文
当场修改录音内容:VoiceNotes不能改

只有AI语音笔记能做的

保留原始录音
区分多个说话者:例如VoiceNotes开Meeting模式

26 Likes

正在更新中

1 Like

来学习了!

2 Likes

我去这个挺好啊,有点心动了

2 Likes

VoiceNotes怎么开会议模式呀

2 Likes

这个总是打不开支付链接

2 Likes

mark mark,很好的文档!

2 Likes

voicenotes新版里增加了会议模式的开关,

原来显示正文的地方显示#meeting的tag和录音提纲,录音正文被挪到了这个文件图标里,不仔细找还看不到

正文加了时间轴和发言人

我听书听课+记感想笔记,就开这个会议模式,可以区分主播声音和自己声音

2 Likes

感谢!我去探索一下

1 Like

Clevertype貌似国区商店可以下载

2 Likes

那种会议录制,大模型总结,识别的好像挺好的,腾讯会议 飞书会议,是咋做的吗

1 Like

我是安卓在app点升级,可以刷卡支付,第一个月扣了$3

1 Like

太强了,大佬!

辛苦了 不知道这个 voicenote 和 get 笔记区别如何 后者免费诶

主要区别是使用的大模型API的区别。像get笔记是国产的,国内法规是禁止它使用国外的API的。那么国内的API在中英混讲的情况下,语音识别率,还有去除口头禅效果比ChatGPT的API就差很远。

如果是只讲中文或者只讲英文,这个识别率还差距没那么大。

1 Like

看完了,结论就是我还是回去用我的百度输入法吧。哈哈

豆包还是不错的,也就grok识别不准当然这可能是我发音的问题。

其实电脑端完全可以混着用,像是讯飞的话,它支持你添加自己的词库,我平时写小说会把主角名字录进去,这样的话对于主角名字识别就会变得准确一些。豆包还是挺好用的,有的时候也可以 ALT 加 f。特别是中英混合输入的时候,用豆包会比讯飞要准确一些。

1 Like

但是错字率还是很高,有没有windows上可以ai语音辅助纠错的。

我不知道你说的AI语音辅助纠正是啥意思。但如果只是对于识别和文本标点、错别字进行一些简单的订正,用Quicker动作就可以实现了。具体也可以看看我的帖子。 分享个quicker动作和提示词用以优化语音识别文字 - 搞七捻三 - LINUX DO