有哪些时间戳比较准确的语音转字幕服务? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
henix
V2EX    程序员

有哪些时间戳比较准确的语音转字幕服务?

  •  
  •   henix
    henix 2025 年 2 月 8 日 2954 次点击
    这是一个创建于 347 天前的主题,其中的信息可能已经有所发展或是发生改变。

    场景:做视频加字幕(中文,不需要翻译),希望先自动出个字幕,然后人工校对

    可接受付费,最好付给不会跑路的大厂

    尝试过:

    1. 本地跑 openai-whipser

    • 本地跑 Python ,比较慢
    • 识别中文的时候,时间戳只能精确到 1 秒,而不是 0.1 秒(明明识别日语的时候都可以精确到 0.1 秒),导致字幕展示时间不精确,不能用

    2. 剪映字幕识别

    • 需要剪映 SVIP ,每月有免费额度
    • 断开的位置经常在一句话的中间,但我希望一个完整的意思作为一条字幕,需要后期人工修正时间轴

    3. 腾讯云录音文件识别 https://cloud.tencent.com/document/product/1093/37823

    • 单句太长,20 多秒中间没有任何断句,作为字幕不可行
    12 条回复    2025-03-24 20:00:32 +08:00
    JensenQian
        1
    JensenQian  
       2025 年 2 月 8 日
    飞书以前有免费额度的
    最近不知道是不是限制了我记得
    timerring
        2
    timerring  
       2025 年 2 月 8 日   1
    我在去年下半年做过一个直播录制识别字幕并压制的项目 https://github.com/timerring/bilive

    我基本上试遍了市面上的字幕识别项目以及 api ,效果很难达到你说的既能精确到 0.1 秒(实际上精确到 0.1 秒作用也不大,除非你做的是某类型的说唱字幕,1 秒能输出若干字),又能准确识别断句,还能合理地将句子划分刚好合适,最后还是选择本地跑 openai 的 whisper ,其实很多时候没有 silver bullet ,但就 asr 任务来说,要方便就选剪映,要实惠就选本地跑 whisper ,至于其他云服务商例如腾讯云,讯飞,谷歌等等,则是既不实惠也不方便,效果也没差别。
    mumbler
        3
    mumbler  
       2025 年 2 月 8 日
    groq 刚刚开放了付费,whisper 飞一样的速度,还很便宜
    rekulas
        4
    rekulas  
       2025 年 2 月 8 日
    我之前搞过,基于开源语音识别+分词进行字幕生成, 纯中文下误差可以控制在 200ms 内, 用于视频生产服务, 后面空了整理个开源出来
    yeqizhang
        5
    yeqizhang  
       2025 年 2 月 8 日 via Android
    用 faster-whipser ,显卡好点就会快点
    coreJK
        6
    coreJK      2025 年 2 月 8 日 via Android
    可以试试 potplayer 的,有声字幕功能,满足你的场景,带字幕浏览器功能,可人工编辑导出(封装的 faster-whipser ),挺好用的
    Nosub
        7
    Nosub  
       2025 年 2 月 8 日 via iPhone   1
    看到熟悉的话题,说两句,无论腾讯云还是阿里云,都可以精确到词的 api 参数,如果你是程序员,写一个分词并不难,另外如果你是自己制作视频,不是做软件,用剪映旧版本,语音识别没有次数限制。
    henix
        8
    henix  
    OP
       2025 年 2 月 9 日
    @Nosub 确实,我今天又看了下,有精确到词的 api 参数,之前只是在控制台网页上试了一下
    shellus
        9
    shellus  
       2025 年 2 月 9 日
    相对来说,剪映识别效果最好,人工修正必不可少的。
    heimoshuiyu
        10
    heimoshuiyu  
       2025 年 2 月 9 日   2
    > 本地跑 Python ,比较慢

    使用 faster-whisper + 显卡

    > 识别中文的时候,时间戳只能精确到 1 秒,而不是 0.1 秒(明明识别日语的时候都可以精确到 0.1 秒),导致字幕展示时间不精确,不能用

    开启 word level timestamp ,默认是不开的

    > 翻译

    使用 https://heimoshuiyu.github.io/whisper-web/ 转录同时利用 GPT 翻译字幕
    sophos
        11
    sophos  
       2025 年 2 月 18 日
    最近写了个 app ,基于 whisper 实现本地转字幕,转写准确度和速度都还可以,堪比抖音
    还可以导出工程文件到 final cut pro 或其他剪辑软件,导出时可以选择去掉空白片段,自动完成粗剪

    应该完全能满足你的需求,准备过段时间上 app store ;-)
    Nosub
        12
    Nosub  
       2025 年 3 月 24 日 via iPhone   1
    再次回复,因为之前没有开发完成,可以试试我开发的软件,已经接入阿里云达摩院的离线语音引擎 funasr ,目前已经完全支持 Windows ,Linux 和 MacOS ,Nosub v2.6.0Beta1 支持离线语音识别和视频压制
    https://github.com/patui/Nosub/releases/tag/2.6.0Beta1
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5535 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 07:44 PVG 15:44 LAX 23:44 JFK 02:44
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86