有什么中文长视频/音频转文本的开箱即用工具吗

中文专业课程/演讲类的视频,两三个小时左右,想转换成文字稿
1.试过whisper desktop + whisper-medium ,好处是拆箱即用,UI点一点就完事,坏处是中文效果一般,而且视频时长太长时,转录的文本出现过内容丢失;
2.有人推荐阿里的模型,小试了一下本地报错,然后也没有whisper desktop这种比较方便的UI,貌似还要先转音频再转文本

佬友们有啥简单好用的方案吗,希望可以直接视频转文本,最好没有先转换成音频的中间步骤

3 Likes
1 Like

讯飞yyds

1 Like

讯飞确实很好用,不过大量使用还是有一些限制,最好是本地就能run的

我之前用的memo ai不过是个付费软件

我使用两款:
一款是:CapsWriter-Offline
教程看作者提供的,优点速度和准确率都可以,不需要额外转音频,也可以实时录制转字幕

=================================================================
另一款: faster-whisper-GUI
模型基于faster whisper,GUI做的不错,不需要额外转音频

3 Likes

感谢大佬!!

用科大讯飞的产品吧

1 Like

剪映好像有一键生成字幕功能

2 Likes

或许你页可以尝试一下阿里的通义听悟

1 Like

我觉得还是飞书好用,飞书工作台的妙记转写,是免费的,好像不限制文件的大小,把视频和音频上传之后就可以转成文本,而且可以用链接分享出去给别人编辑,而且转文本很快,我经常一转就是转两个小时语音

3 Likes

Mac有一款叫Whisper Transcription 的工具,之前限免过,很好用。

1 Like

昨天试了下, **faster-whisper-GUI + large-v3 model float32 ** ,效果非常好,完全满足我的需求了,感谢佬推荐!

1 Like

OK,咱也是借花献佛,另外,那个float32,如果感觉太慢,可以改为int 8,速度飞快,效果好像差别不大,自己对比试试

1 Like

可以問問怎麼使用嗎?
模型下好了可是不能開:sob::sob::sob:

佬友可以问一下吗,我也是用的large-v3模型 float32,但是我的转换速度特别慢,看了下任务管理器发现GPU完全不调用,是需要在哪里设置什么吗?

https://tingwu.aliyun.com/home 我感觉通悟最适合你

好像有個飛書什麼的能自動轉語音:melting_face:

1 Like

阿里的好用

From 快问快答 to 开发调优

1 Like