
就是我现在有一个视频,这个视频中有三个人在对话,我想通过语音识别来分别识别出这三个人都谁说了哪句话,并且把它导出成文本标记出来。然后方便我去做翻译。。。
1 kirieievk 2025 年 1 月 14 日 关注! |
2 Perry 2025 年 1 月 14 日 via iPhone 有很多 Podcast 生产力工具支持这样的,Perplexity 搜下试试看? |
3 vopin 2025 年 1 月 14 日 via iPhone 同样需求,一年多前调查的时候暂时没找到一步到位的工具。whisper 虽然很厉害了但是分辩人不行,一些经典机器学习方法也不完美。 现在不知道怎样了 |
4 NOneKnowYeah 2025 年 1 月 14 日 通义听悟 |
5 gpt5 2025 年 1 月 14 日 我记得当年学 svm 的时候,老师给过一个例子,用 1 行 matlab 代码(非工具箱)就实现了区分不同人的声音。 |
6 JayZXu 2025 年 1 月 14 日 飞书个人版的妙记 直接上传视频,会自动生成字幕而且匹配发音人 可能会识别出多个发音人,改下标注就行了 而且还能切换各种语言翻译的结果 |
7 mfy 2025 年 1 月 14 日 sherpa-onnx ,FunASR 这两个都可以。测试下来,感觉 sherpa-onnx 识别的准确度稍高一些;使用上 FunASR 简单一些。 |
8 evan1 PRO 钉钉会议可以实现,用过一两次。识别准确率估计 80%-90%左右。 |
11 dzdh 2025 年 1 月 14 日 阿里的语音识别 API 可。 |
12 jiobanma 2025 年 1 月 14 日 阿里的通义听悟 |
13 Daybyedream 2025 年 1 月 14 日 飞书那个 一直可以 讯飞妙计 |
14 yu13n 2025 年 1 月 14 日 我没办法给出具体的解决方案,但这种需求一般被叫做“鸡尾酒会问题”,可以用这个作为关键词去搜索一下 |