想找一个开源的模型,大厂的模型有推荐的吗?
目前有了解 OpenAI Whisper
想满足:
1.能支持 GPU 加速
2.准确率高(降噪啥的)支持中英混合,主要是中国口音的英语(没有歧视的意思, 纯业务需求)
3. 速度尽可能的快
场景是离线的。
![]() | 1 liu731 PRO |
2 python35 87 天前 ![]() 就是做这个相关的,比较流行的是 kaldi2 、funasr 、wenet 、sensevoice ,都提供了很多预训练的模型,在 cuda 上都能跑, 其中 sensevoice 的 readme 写了 Multilingual Speech Recognition: Trained with over 400,000 hours of data, supporting more than 50 languages, the recognition performance surpasses that of the Whisper model. 他们的效果超过 Whisper |
![]() | 4 Liu6 OP 感谢各位分享! |
6 neoblackcap 87 天前 现有的 LLM 的语音识别效果应该都挺好的,但是实际操作可能得是信号处理方面下功夫。过滤背景音,音乐啥的。然后再是语音识别。 |
8 python35 86 天前 @Liu6 #5 个人更喜欢这个 sensevoice ,kadi2 ,背靠大公司,相对于背靠开源社区的迭代速度和训练集更有优势,kaldi2 的话生态更好从训练到部署一条龙 |
![]() | 10 newaccount 86 天前 用过 whisper 把吉他课转录成文本 不知道他用了哪儿的训练语料 对话过程中会有音乐,导致它能把对话成识别成周华健 我特么要是能找周华健教吉他我特么都该表演个倒立洗头 |
![]() | 11 newaccount 86 天前 |
![]() | 12 Liu6 OP |
![]() | 13 newaccount 85 天前 @Liu6 #12 时间没有显示,角色自动识别的,当时随便用用主打一个省心,懒得手动整理 |
![]() | 14 Liu6 OP @newaccount #13 paraformer-zh 这个模型可以支持 角色 和时间, 就是速度我测下来, 比 sensevoice 慢了 3 倍左右, 准确度目前还没对比 |