[分享] 一款高效的音频/视频转文字工具语音识别生成字幕 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
dmitsc
V2EX    分享创造

[分享] 一款高效的音频/视频转文字工具语音识别生成字幕

  •  
  •   dmitsc 2023 年 5 月 29 日 3413 次点击
    这是一个创建于 967 天前的主题,其中的信息可能已经有所发展或是发生改变。
    以下内容由 chatgpt 撰写

    大家好,我在这里分享一个我最近发现( gang bian de )的非常实用的工具音频 /视频转文字工具。

    这个工具可以帮助你把音频或者视频文件转化为文本,是非常好用的语音识别工具。最令人振奋的是,它不仅可以自动识别语言,而且可以生成多种格式的字幕文本。

    主页: https://whisper.myfastools.com/

    功能介绍:

    音频转文字
    识别语言
    生成多种格式的字幕文本( TXT 、SRT 、JSON 、TSV 、VTT )
    使用流程:

    上传你的音频或者视频文件,系统会生成一个提取码显示在网页上,你可以用这个提取码来提取你的识别结果。识别结果包含了多种格式的字幕文本。

    这是一段以英语演讲识别样例:

    [点击这里下载 TXT 格式的结果文件]

    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.txt
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.srt
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.json
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.tsv
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.vtt
    替换后缀即可下载( TXT 、SRT 、JSON 、TSV 、VTT )中的其他格式

    希望这个工具对大家有所帮助。如果在使用过程中遇到问题,或者有什么改进的意见,都欢迎在下面留言。我会及时进行回复和改进。期待你们的反馈!

    TODO:修改 UI ,添加登录功能,添加使用 GPU 的工作节点,显示实时进度,显示列队
    第 1 条附言    2023 年 6 月 1 日

    2023/6/1 儿童节更新

    • 添加语言选择
    • 添加质量/速度偏好选择

    目前默认为速度,如果选质量可能暂时不会处理。预计本周更新高质量识别。

    儿童节图片

    第 2 条附言    2024 年 7 月 27 日
    有人识别了大量违规信息,并同过网站提供结果内容下载,但是我没有时间处理这类违规信息,直接把网站停了。
    13 条回复    2024-07-27 02:14:48 +08:00
    shuxge1223
        1
    shuxge1223  
       2023 年 5 月 30 日
    准确率咋样啊
    dmitsc
        2
    dmitsc  
    OP
       2023 年 5 月 30 日
    @shuxge1223
    准确率很好了,你可以试一下

    不过现在是没上好的硬件,可能会慢,大概几十秒到几分钟不等。

    等我写完分布式处理之后,应该可以在三十秒内处理完大多数任务。
    cxumol
        3
    cxumol  
       2023 年 5 月 30 日
    JerryLin
        4
    JerryLin  
       2023 年 5 月 30 日
    看到 whisper 就想到 OpenAI 提供的 whisper 接口,楼主是使用 OpenAI 提供的吗?
    AMZsowhat
        5
    AMZsowhat  
       2023 年 5 月 30 日
    用几条中文人声语句测试了下,发声能准确识别,但是没有对上下文语意的分析,所以对于[在\再] [借\接]等词汇无法进行准确辨析
    dmitsc
        6
    dmitsc  
    OP
       2023 年 5 月 30 日
    @JerryLin 是的,使用了 OpenAI 的 Whisper 作为语音识别端。
    dmitsc
        7
    dmitsc  
    OP
       2023 年 5 月 30 日
    @AMZsowhat 目前由于硬件条件限制,采用了轻量模型。后续会采购硬件改用大模型,在那之后就会由上下文语意匹配的能力。
    dmitsc
        8
    dmitsc  
    OP
       2023 年 6 月 1 日
    @cxumol 预计本周末上线更高准确率的识别能力,到时候可以再试一下~
    TernenceZhou
        9
    TernenceZhou  
       2023 年 8 月 23 日
    你好,目前转文字好像没有弹出提取码
    大佬 服务还能用吗
    TernenceZhou
        10
    TernenceZhou  
       2023 年 8 月 23 日
    提取码在左下角,然后提取码下载 auto-speed-70f82c3577358ece19aa70f735fa6bc7
    https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-9805069510030683
    出现 block status
    识别文件没有下载成功
    dmitsc
        11
    dmitsc  
    OP
       2024 年 7 月 26 日
    有人识别了大量违规信息,并同过网站提供结果内容下载,但是我没有时间处理这类违规信息,直接把网站停了。
    jaylong
        12
    jaylong  
       2024 年 7 月 26 日
    有没有本地解决方案? 避免隐私问题
    dmitsc
        13
    dmitsc  
    OP
       2024 年 7 月 27 日
    @jaylong 有的,可以直接在本地环境中安装 whisper.cpp 或者 python 中的 whisper
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5366 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 42ms UTC 08:31 PVG 16:31 LAX 00:31 JFK 03:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86