Chrome 扩展 - 实时语音转字幕 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
zhw2590582
4.23D
V2EX    分享创造

Chrome 扩展 - 实时语音转字幕

  •  
  •   zhw2590582
    zhw2590582 2022-04-03 23:01:26 +08:00 8044 次点击
    这是一个创建于 1317 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg

    就是不知道有没有人还会这种需求,就是网页看视频、听广播电台、上网课或者远程会议的时候,希望看到实时字幕的,最近花了几天时间写了这么一个扩展,给大家尝鲜。

    这个扩展就只有一个功能,就是实时语音转字幕,只要网页有声音,哪怕你把本地的视频,直接拖放到浏览器播放也算,只要网页有声音,都能实时语音识别转成字幕,还能自己调整字幕样式和下载字幕文本。

    当然语音识别用的是第三方的,目前接入了阿里云和腾讯云,科大讯飞预付的价格太贵就先不接入了。扩展是和这些云服务直连的,所以识别速度和准确度我就无法保证了,就看这些云服务品质如何了。

    当然,往往需求更大的是实时翻译功能,目前只有科大讯飞可以做到实时语音识别的同时做到实时翻译的,但需要预付年费 20000 元,太贵了先不搞这个,等用的人多了需求大了再考虑买不买这个服务吧。

    1.jpg 2.jpg

    Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg

    第 1 条附言    2022-04-04 21:41:56 +08:00
    发现 window 和 mac 下的 chrome 表现行为不一样,导致 window 下无法语音识别,应该是 Chrome 的 bug ,我要改一下逻辑,所以先把扩展下架了
    第 2 条附言    2022-04-06 16:43:02 +08:00
    第 3 条附言    2022-04-06 20:21:48 +08:00
    谷歌商店审核通过了,现在价格是每分钟 1 点数,新注册用户既有 20 点数,就是说能免费玩 20 分钟,大家可以来尝鲜。
    37 条回复    2024-08-28 13:32:20 +08:00
    Tink
        1
    Tink  
    PRO
       2022-04-03 23:31:40 +08:00 via Android
    这难道不是看日本小姐姐的刚需?
    Tink
        2
    Tink  
    PRO
       2022-04-03 23:33:27 +08:00 via Android
    我之前用过这个效果不错,能翻译 https://speechlogger.appspot.com/zh/
    HFX3389
        3
    HFX3389  
       2022-04-03 23:43:22 +08:00   2
    我先帮忙把价格贴一下,下面的价格是发帖时的价格,后面会不会变就不知道了

    价格:1 元=10 点

    - 腾讯云、阿里云:2 点 /分钟( 1 元=5 分钟)

    - 讯飞:3 点 /分钟( 1 元=3 分钟)
    dingdong
        4
    dingdong  
       2022-04-03 23:45:14 +08:00   1
    chrome 自带的 live caption 辅助功能不就是干这事儿的么
    zhw2590582
        5
    zhw2590582  
    OP
       2022-04-03 23:52:44 +08:00
    @dingdong chrome 自带的也不错,还免费
    zhw2590582
        6
    zhw2590582  
    OP
       2022-04-03 23:53:42 +08:00
    @Tink 看了下是对接谷歌的接口,我后面看看能不能也加入谷歌的接口
    crokily
        7
    crokily  
       2022-04-04 09:56:57 +08:00
    之前有个类似的自用想法,但在研究了各家定价后就放弃了,使用语音识别在线服务的成本实在是 略高,难以真的在生活中使用开。一节网课一两个小时,一天又不止上一节课,这样一天的成本就要大几十,难堪大用,只能非常轻度的使用。
    zhw2590582
        8
    zhw2590582  
    OP
       2022-04-04 10:40:12 +08:00
    @crokily 是的,就因为价格贵,做这个之前我还考虑了很久,也觉得做出来也没什么人用,时长太长的场景确实不太适合做语音识别
    Chism
        9
    Chism  
       2022-04-04 11:15:33 +08:00 via Android
    看看微软小娜是否有开放接口,有的话,直接做成系统级,而且离线转文字
    GoTop
        10
    GoTop  
       2022-04-05 10:20:28 +08:00
    @HFX3389 #3 这个价格,用不起啊
    woaishangban
        11
    woaishangban  
       2022-04-06 10:44:20 +08:00
    链接打不开啊?楼主,有关键字没
    l0wkey
        12
    l0wkey  
       2022-04-06 11:22:52 +08:00
    l0wkey
        13
    l0wkey  
       2022-04-06 11:24:46 +08:00
    虽然是个非全浏览器兼容的接口,但....
    既然做 Chrome 的扩展,其他浏览器的兼容性就不重要了~
    zhw2590582
        14
    zhw2590582  
    OP
       2022-04-06 11:55:51 +08:00
    @HFX3389 @GoTop 价格已经改成每分钟 0.1 元了,但初始免费的点数也变成 20 点了,太难了。

    @woaishangban 新版本还在审核,目测今天下午可以上架,目前因为 window 下的兼容问题,先把旧版本下架了。
    zhw2590582
        15
    zhw2590582  
    OP
       2022-04-06 11:56:33 +08:00
    @l0wkey 你这个是好东西,我研究一下
    l0wkey
        16
    l0wkey  
       2022-04-06 12:15:39 +08:00
    zhw2590582
        17
    zhw2590582  
    OP
       2022-04-06 12:29:33 +08:00
    @l0wkey 看了下,好像只能用于麦克风录入,不能自定义音频流录入
    l0wkey
        18
    l0wkey  
       2022-04-06 14:31:50 +08:00
    @zhw2590582 #17 看了下好像是的。。
    同样也看到一些奇怪的方式 https://github.com/jacksonsmith/what_they_say
    l0wkey
        19
    l0wkey  
       2022-04-06 14:38:27 +08:00
    不过..Chrome 官方的实时字幕应该也快支持中文了 https://support.google.com/chrome/answer/10538231?hl=zh-Hans
    zhw2590582
        20
    zhw2590582  
    OP
       2022-04-06 16:43:33 +08:00
    findex
        21
    findex  
       2022-04-06 17:24:57 +08:00 via iPhone
    好东西顶一下。表示既然是用的 api ,可以做个 app 桌面完整版吗。因为很多人上网课 zoom 会议等并不是用的浏览器完成的。之前有个 v 友做了个 BeMyEars mac 客户端是调用的 mac 内置离线 siri 语音识别转字幕。就是 siri 不太准,体验不好。
    如果好用准确的话,真有不少用户愿意付费的。
    zhw2590582
        22
    zhw2590582  
    OP
       2022-04-06 17:35:28 +08:00
    @findex 搜了一下,还真没找到什么好用的实时语音识别的桌面端,可惜我只会 js ,用 electron 开发这么一个小功能的话又太臃肿
    findex
        23
    findex  
       2022-04-06 17:40:35 +08:00 via iPhone
    @zhw2590582 windows 下有网易出的一个。每天免费 1 小时。如果 js 好用的话,用户也不怕臃肿吧。100mb 可以接受。
    xueyangkk
        24
    xueyangkk  
       2022-04-07 10:38:54 +08:00
    实时字幕 一般都是调用本地的 api 实现吧 。调用远程的 其实很慢的 。 我给公司搭建的 视频识别文字 目前是异步的,识别效率算是好的 60 秒的视频 都至少 30~40 秒 这个水平 。 至于翻译 这个目前市面上开源 都是中英文翻译 。没见到有日文翻译 成中文的 有的话 求教学习下
    xueyangkk
        25
    xueyangkk  
       2022-04-07 10:42:33 +08:00
    备注下 我用的服务器是 CPU 的 要是用 GPU 的服务器速度会更快 无奈 GPU 云服务器 太贵了
    zhw2590582
        26
    zhw2590582  
    OP
       2022-04-07 10:47:04 +08:00
    @xueyangkk 能做到本地当然是最好,像 chrome 自带英语的实时语音识别一样,识别效率也很高
    rekulas
        27
    rekulas  
       2022-04-07 12:10:38 +08:00
    @xueyangkk 远程也不慢,现在大多云都有实时转译基本延时 1-5 秒,就是价格优美
    crokily
        28
    crokily  
       2022-04-07 12:26:01 +08:00
    @findex gitee 有个叫 LiveCaption 的开源项目 就是一个调用腾讯云 /百度云 /阿里云 /的桌面端程序 Go 写的 实时抓取设备的音频输出转写字幕。
    crokily
        29
    crokily  
       2022-04-07 12:50:00 +08:00
    @xueyangkk 远程效果还可以呀 我试用百度的实时转写 API 准确率挺高 而且体感延迟较低,差不多是即说即得(严格来说还是有点网络与处理延迟,但体感不明显)。
    不过发现了实时转写的一个缺点,无论远程本地,实时转写都是逐字转写的,除了识别偶然不准外,还会有识别成同音字的问题,所以只有完整讲完一整句,才能得到最准确的结果。
    而且 逐字逐字显示的字幕 跟 目前人们熟悉的字幕 体验完全不同,通常看视频字幕,人们都是盯着画面(主),快速瞄一眼字幕(次)获取完整信息,这样思维才能跟得上播放。但逐字逐字的实时字幕在人物说话过程中只有半句的信息,非得人物讲完一整句才有完整信息,这个时候看字幕才能获取到完整信息,但此时视频已经要开始下一句了,让思维跟播放进度割裂滞后了,个人感觉体验不是很好,所以实时转写似乎并不好用,除非实时转写能提前几秒转写内容。
    moeik
        30
    moeik  
       2022-04-07 13:34:56 +08:00
    这玩意在本土网络环境不能正常使用吧
    zhw2590582
        31
    zhw2590582  
    OP
       2022-04-07 13:43:30 +08:00
    @moeik 你是说国内网络吗?没问题的,都是浏览器 websocket 直连阿里云和腾讯云的
    RikiZhu
        32
    RikiZhu  
       2022-04-07 16:00:58 +08:00
    听网课却有这个需求,但感觉成本考量这个插件还是很鸡肋。现在国产手机基本都自带不限时免费的实时字幕( miui 的小米闻声,华为的实时字幕),一定要在 PC 上用的话还有网易同传的免费版可用,而且不局限于网页,可以同传整个系统声音。哈哈,希望楼主能找到合适的应用场景。
    zhw2590582
        33
    zhw2590582  
    OP
       2022-04-07 16:36:33 +08:00 via iPhone
    @RikiZhu 同意,这个扩展大多数用于临时起意的情况下使用,专业场景或者长时间使用的话还是用专业的软件好一些
    19cm
        34
    19cm  
       2022-04-07 23:38:59 +08:00
    这个商业化和使用体验最好的是彩云小译
    findex
        35
    findex  
       2022-04-08 03:09:34 +08:00
    @crokily 看了一下你推荐的。是这个吗? https://gitee.com/641453620/livecaption
    看里面的视频介绍。貌似识别速度挺快的,而且很准确。虽然有点时差,但是问题好像不大。
    crokily
        36
    crokily  
       2022-04-08 08:15:33 +08:00
    @findex 是的
    YucaiHuang
        37
    YucaiHuang  
       2024-08-28 13:32:20 +08:00
    版主下线了这个插件了? 可以发一下 git 地址不,最近有个项目需要在 chrome 扩展中加入语音识别,不胜感激!!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5252 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 08:57 PVG 16:57 LAX 00:57 JFK 03:57
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86