分享一个 AI 字幕工具,自建的语音转写服务,更高的准确度,支持英日韩法等 20 多国家语言 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
yedaxia
V2EX    分享创造

分享一个 AI 字幕工具,自建的语音转写服务,更高的准确度,支持英日韩法等 20 多国家语言

  •  
  •   yedaxia
    YeDaxia 2023-01-25 12:21:39 +08:00 4598 次点击
    这是一个创建于 994 天前的主题,其中的信息可能已经有所发展或是发生改变。

    软件首页:33 字幕

    V 友们新年好,我是 33 字幕软件的开发者。

    AI 字幕工具已经很多了,为什么还要重新做一个呢?

    作为一名独立开发者,在一个竞争激烈的领域,胜算是很低的,另外一方面,做同样的东西意义也不大。

    之所以打算自己做一个,原因主要有两个:一个是自己这边就有制作字幕的需求,长期来看可以降低一下这方面的成本。还有一个重要的原因是,我们有尝试接入过不少国内云服务商的语音转写服务接口,但对于非中文,发现识别结果没有很理想。

    如果你试用一下 33 字幕,你会发现识别的准确度比很多软件要好不少,尤其是外语,不过准确的背后也是有代价的,相应消耗的算力成本也会成倍增加。

    除了自己部署的语音转写模型,我们也集成了阿里云、讯飞语音等第三方的语音转写服务。

    和大部分 AI 字幕工具不一样,我们把选择权交给使用者,你可以选择效果好成本高的引擎,也可以效果没那么好,但成本低的。

    也许有人可能觉得,没有必要让使用者知道太多细节,直接给出最好的结果,这样既可以降低认知负担,又能隐藏技术细节和成本结构。

    现实问题大部分是没有银弹的,信息不对称也许对商业有好处,但如果我自己作为一个软件使用者,我希望自己是有选择的,而不是只能选择用还是不用。

    这个软件功能非常简单,就是把提取出音频,然后上传到服务器,把音频内容转成字幕文本输出。

    对于我们,这个工具把我们最关键的一环补上了。后续的字幕调整工作,有比较完善的工具作为补充,比如 Arctime pro ,Aegisub 等,当然,我也希望可以直接在一个软件内就完成所有工作,这也是后续完善产品的一个方向。

    为什么不做成网页端,而是要以 PC 客户端这么重的形式来交付呢?

    一开始我们也想通过网页应用的形式,前端方案是通过 ffmpeg.wasm 来完成音频提取、转码等工作,但无奈这个方案存在很多限制,最后放弃了。

    要知道,一个产品最终成本都会由使用者来承担。出于以更低成本运行软件的考虑,我们决定通过客户端来解决这个问题,把一些比较重的计算一部分交给用户自己的机器来完成,尽管这样做会增加前期的开发成本,甚至可能损失部分用户,从长期看,我们认为这是值得的。

    而且这样做额外的好处还可以做到不上传和存储用户的视频内容,降低总体成本的同时,也保护了内容安全。

    这个工具主要可以帮助到哪些人?

    1. 视频创作者:带字幕的视频往往会具有更好的完播率,可以帮助观看者更好地理解内容,尤其在地铁和公交车等一些公共场合中观看视频的时候。
    2. 追海外剧狂人:很多海外剧不带字幕,等字幕组出来需要时间,而通过 33 字幕生成的字幕,然后加上播放器的翻译功能,对于看剧来说应该完全够了。
    3. 外语老师:可以结合我们另外一个帮助构建台词搜索的软件:QuoteHunt ,来构建一个教学素材库。
    4. 字幕组:听译应该是字幕制作流程中对人要求最高,而且最耗费精力的一环了,通过 33 字幕生成初步的字幕稿,可以大大降低制作成本。

    给大家送上一些算力兑换码,欢迎试用:(可兑换 10000 算力)

    ncJb AmCt 4BhT X4Ce 0yyb N8Vo cs8G ha9T dzN5 dI5J 5QZC devr rvVI qQq1 pPRx 38gQ RtaF mKrp eH0N PjkQ 

    软件下载

    如何使用兑换码

    26 条回复    2023-11-25 16:08:32 +08:00
    gap
        1
    gap  
       2023-01-25 12:31:57 +08:00
    用的是 open ai 的 whisper ?
    yedaxia
        2
    yedaxia  
    OP
       2023-01-25 12:32:40 +08:00
    @gap 有用到
    wdwwtzy
        3
    wdwwtzy  
       2023-01-25 12:38:17 +08:00 via iPhone
    没有展示中文字幕的效果?
    darer
        4
    darer  
       2023-01-25 12:38:42 +08:00
    cs8G 已用,感谢作者
    darer
        5
    darer  
       2023-01-25 12:41:21 +08:00
    嗯… 一个四十五分钟的日语音频 大概消耗 41277 算力(大模型)
    yedaxia
        6
    yedaxia  
    OP
       2023-01-25 12:46:05 +08:00
    @wdwwtzy 谢谢提醒,发布比较匆忙,后续会加上更多的语言示例。
    yedaxia
        7
    yedaxia  
    OP
       2023-01-25 12:52:47 +08:00
    @darer 大模型效果最好,消耗算力也厉害;中模型会少一些,效果也还可以。
    fyooo
        8
    fyooo  
       2023-01-25 12:59:59 +08:00   3
    推广 @Livid
    TabGre
        9
    TabGre  
       2023-01-25 14:11:56 +08:00 via iPhone   1
    openai/whisper 产品化
    szdosar
        10
    szdosar  
       2023-01-25 15:57:37 +08:00
    感谢,倒数第三个兑换码已用。
    xxhhlk
        11
    xxhhlk  
       2023-01-25 16:47:48 +08:00
    RtaF 已用 感谢
    Wenbobobo
        12
    Wenbobobo  
       2023-01-26 00:21:31 +08:00 via Android
    dzN5 已使用
    hanguofu
        13
    hanguofu  
       2023-01-26 14:23:13 +08:00
    谢谢分享。顺便问问: 音频转文本输出的功能用哪家的服务好 ?(暂时只关心中文)
    lionoggo
        14
    lionoggo  
       2023-01-26 14:51:38 +08:00
    有个问题问下:自己部署的 ASR 模型是指的自己重新训练的模型?如果是自己训练的模型,效果如何?另外支持方言吗?
    yedaxia
        15
    yedaxia  
    OP
       2023-01-27 09:41:25 +08:00
    @hanguofu 中文可以试下讯飞、阿里云。
    yedaxia
        16
    yedaxia  
    OP
       2023-01-27 09:42:44 +08:00
    @lionoggo 没有考虑方言,所以没有相关测试数据。
    lulucy
        17
    lulucy  
       2023-01-28 16:19:19 +08:00
    同为对 AI 感兴趣的开发者,不知道是否方便添加微信聊聊呀
    fuchaofather
        18
    fuchaofather  
       2023-01-28 16:38:51 +08:00
    兑换码已经无了,OP 有限制帐号兑换次数吗
    yedaxia
        19
    yedaxia  
    OP
       2023-01-28 20:05:58 +08:00
    @fuchaofather 有限制,24 小时只能兑换一次。

    继续发一波:

    pIEH
    B3tf
    A1ux
    J2CT
    sdUu
    rI7A
    OxhZ
    5QWO
    TOWu
    6opR
    yedaxia
        20
    yedaxia  
    OP
       2023-01-29 11:48:21 +08:00
    @lulucy RGFyY3lZZQ==
    powerkai
        21
    powerkai  
       2023-01-29 16:25:41 +08:00
    OxhZ 已用 感谢 OP
    rekulas
        22
    rekulas  
       2023-01-30 07:29:21 +08:00
    服务不错 不过成本似乎有点高
    我们有一套自动渲染服务,其中有个功能点也是这个,成本大约 0.2/小时
    rekulas
        23
    rekulas  
       2023-01-30 07:37:21 +08:00
    忽略上一句,刚想了下有区别我们是有原文的,只需要对字幕,难度比纯识别简单多了,成本是要低的多
    jpyl0423
        24
    jpyl0423  
       2023-02-02 14:11:58 +08:00
    剪映的字幕生成是免费的,而且没有长度限制
    yedaxia
        25
    yedaxia  
    OP
       2023-02-02 16:21:30 +08:00
    @jpyl0423 剪映不能支持日韩等外语的识别,也不支持批量处理。
    fortree
        26
    fortree  
       2023-11-25 16:08:32 +08:00
    mac 版下载不了啊,下载链接失效了吗
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5441 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 08:04 PVG 16:04 LAX 01:04 JFK 04:04
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86