
请问现在的音频自动断句有没有通用的方法?
最近在做听写 但是中间停顿的时间太短 所以想要自动断句 把停顿的时间延长 就不用一直手动回退和暂停了
谢谢
[Edit] 识别音频的内容并非必要 因为我有原文 如果不需要识别音频内容就能断句会更好
1 Nosub 2024-05-24 21:46:25 +08:00 via iPhone vad 了解一下。 |
2 vivisidea 2024-05-24 22:25:50 +08:00 1. vad +1 基本思路就是音频先转 pcm ,然后做 vad 切分 2. 偷懒的话可以直接调用 asr 供应商,百度/阿里之类的好像都会有点免费额度,一般返回 text 都带 timestamp 的,按照 timestamp 切就行 |
3 subtleworks OP @Nosub 谢谢 |
4 subtleworks OP @vivisidea 谢谢 第一点有 vad 的库吗 |
5 vivisidea 224-05-24 22:42:15 +08:00 @subtleworks #4 我知道有 python 的 https://pypi.org/project/webrtcvad-wheels/ ,你找找又没其它语言的,这个是 google 之前开源的 webrtcvad |
6 lts9165 2024-05-24 22:45:15 +08:00 https://github.com/snakers4/silero-vad 开源的里面这个比较好 |
7 AS4694lAS4808 2024-05-24 22:49:00 +08:00 via Android 可以私有部署阿里的 funasr 带 punc 的模型,有时间戳 |
8 subtleworks OP @vivisidea 好的 谢谢 |
9 subtleworks OP @lts9165 谢谢 不过 python 我不会 |
10 subtleworks OP @AS4694lAS4808 谢谢 私有部署有点麻烦 相比之下我还是用商用的免费额度吧 |
11 lts9165 2024-05-24 23:03:15 +08:00 @subtleworks 是 onnx 的模型,多种语言都可以调用 |
12 subtleworks OP @lts9165 啊 我看见了 web 版本的在这里 https://github.com/ricky0123/vad |
13 1543544726zy 2024-05-25 16:22:13 +08:00 小米的没人用吗 |