有没有能识别多人声音的 AI 工具呢

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 448 天前的主题，其中的信息可能已经有所发展或是发生改变。

就是我现在有一个视频，这个视频中有三个人在对话，我想通过语音识别来分别识别出这三个人都谁说了哪句话，并且把它导出成文本标记出来。然后方便我去做翻译。。。

语音识别

多人声音

文本标记

14 条回复 2025-01-14 11:35:58 +08:00

kirieievk

2025 年 1 月 14 日

关注!

Perry

2025 年 1 月 14 日 via iPhone

有很多 Podcast 生产力工具支持这样的，Perplexity 搜下试试看？

vopin

2025 年 1 月 14 日 via iPhone

同样需求，一年多前调查的时候暂时没找到一步到位的工具。whisper 虽然很厉害了但是分辩人不行，一些经典机器学习方法也不完美。
现在不知道怎样了

NOneKnowYeah

2025 年 1 月 14 日

通义听悟

gpt5

2025 年 1 月 14 日

我记得当年学 svm 的时候，老师给过一个例子，用 1 行 matlab 代码(非工具箱)就实现了区分不同人的声音。

JayZXu

2025 年 1 月 14 日

飞书个人版的妙记
直接上传视频，会自动生成字幕而且匹配发音人
可能会识别出多个发音人，改下标注就行了
而且还能切换各种语言翻译的结果

mfy

2025 年 1 月 14 日

sherpa-onnx ，FunASR
这两个都可以。测试下来，感觉 sherpa-onnx 识别的准确度稍高一些；使用上 FunASR 简单一些。

evan1

PRO

2025 年 1 月 14 日 via iPhone

钉钉会议可以实现，用过一两次。识别准确率估计 80%-90%左右。

evan1

PRO

2025 年 1 月 14 日 via iPhone

@evan1 是会议还是直播忘记了。

当时看到这个功能大受震撼。

evan1

PRO

2025 年 1 月 14 日 via iPhone

@evan1 没注意是已有视频。这样的话可以看看转录行不行。

dzdh

2025 年 1 月 14 日

阿里的语音识别 API 可。

jiobanma

2025 年 1 月 14 日

阿里的通义听悟

Daybyedream

2025 年 1 月 14 日

飞书那个一直可以讯飞妙计

yu13n

2025 年 1 月 14 日

我没办法给出具体的解决方案，但这种需求一般被叫做“鸡尾酒会问题”，可以用这个作为关键词去搜索一下