「视字」小程序:从视频中提取文字 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
quietjosen
V2EX    分享创造

「视字」小程序:从视频中提取文字

  •  
  •   quietjosen
    atjason 2020-02-17 16:13:06 +08:00 6693 次点击
    这是一个创建于 2065 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家好,我新开发了小程序「视字」,可以 从视频中提取文字,欢迎一试。

    「视字」小程序,怎么用?

    小程序嘛,打开即用:选择视频,然后等等即可

    除了 相册里的视频,还可以选择 聊天对话 中的 视频、以及 音频(比如 mp3/wav 等)

    除了 中文,还可以提取 英语

    注:不是提取视频截图里的文字,而是视频语音中的文字,也可理解为视频的文案、文稿。

    「视字」小程序,有什么用?

    恩,灵魂一问。

    其实最开始,我是帮一位家人做的。她的需求是这样的:经常需要听一个教学视频,有时还会用手把视频中的要求手抄下来,然后反复看。这个明显就比较费时费力。

    于是,我就帮她做了这个工具,可以直接提取视频中的文字,然后在手机上看、或者打印出来看。

    做就做了,于是就封装成了产品,说不定会有其他人也需要。

    不是有很多类似的产品吗?

    首先,其实并不是很多。

    音频转文字的不少,但直接从视频到文字的,真的很少。讯飞有一个类似的,针对的是视频加字幕的需求,收费是 0.78 元每分钟。

    当然,有能力的小朋友,可以很轻松地从视频中提取音频,然后再使用音频转文字的产品。可,你要知道,很多人的 IT 水平,真的没那么高;他们需要的是 One-Click 产品。

    技术方案是怎样的?

    其实,我比较了很多的技术方案,也踩过很多坑,目前的方案是:

    • 视频提取音频:七牛云服务
    • 音频提取文字:搜狗知音

    其实,如果是用本地应用,完全可以用 ffmpeg 实现转码,可以节约转码时间和费用。而我就想做成个小程序,分发确实方便,也只能这样了。

    那你怎么赚钱?

    从产品的由来,你可以知道我并不是为了赚钱。不过,确实是有技术成本的。小程序里收费比较麻烦,主要是 iOS 对内购的限制。暂时没想法,可能等量上来了,再考虑「看广告、免费使用」之类的策略。

    尾巴

    我有写博客和公众号的习惯,这篇文章里记录了「视字」小程序的开发过程、踩过的坑,感兴趣可以一看。

    https://mp.weixin.qq.com/s/9E7NiNiFQEzKg8VdWC52-w

    第 1 条附言    2020-02-18 10:48:12 +08:00

    更新:「视字」小程序新版:可以识别聊天里的文件,包括视频、音频。

    18 条回复    2020-02-23 19:30:00 +08:00
    fancy111
        1
    fancy111  
       2020-02-17 16:23:44 +08:00
    这个功能不难,建议加上直接填视频链接解析的。
    quietjosen
        2
    quietjosen  
    OP
       2020-02-17 16:34:07 +08:00
    @fancy111 恩,记在列表里了。不过,暂时没兴趣做。
    Kimipoker
        3
    Kimipoker  
       2020-02-17 18:04:46 +08:00
    挺好用的 谢谢呢
    quietjosen
        4
    quietjosen  
    OP
       2020-02-17 18:16:30 +08:00
    @Kimipoker 不客气,多用多提意见~
    mumbler
        5
    mumbler  
       2020-02-17 18:18:32 +08:00 via Android
    名字太绕口,建议改成“视文”
    quietjosen
        6
    quietjosen  
    OP
       2020-02-17 18:32:11 +08:00
    @mumbler 恩,明白。
    gejun123456
        7
    gejun123456  
       2020-02-18 03:39:17 +08:00 via iPhone
    可以弄个直接生成字幕的功能 用处挺大的
    rekulas
        8
    rekulas  
       2020-02-18 09:41:11 +08:00
    我觉得言文 视文都可以
    quietjosen
        9
    quietjosen  
    OP
       2020-02-18 10:42:59 +08:00
    @gejun123456 恩,我也感觉是字幕是比较常见的需求。有一些类似的产品,比如讯飞,以及抖音快手的编辑器。
    quietjosen
        10
    quietjosen  
    OP
       2020-02-18 10:43:31 +08:00
    @rekulas 文言文即视感
    waytocode
        11
    waytocode  
       2020-02-18 11:03:24 +08:00
    youtube 这个功能做得还蛮强大的
    kevtyle
        12
    kevtyle  
       2020-02-18 11:26:02 +08:00
    只在小程序使用有点不方便,要是有网页版就好
    quietjosen
        13
    quietjosen  
    OP
       2020-02-18 11:26:40 +08:00
    @waytocode 对,借道 YouTube,是可以实现类似的功能。不过,就是导出、后处理,对一般人稍稍有点麻烦。更别说,绝大多数人,是无法访问这个神奇的网站的。
    quietjosen
        14
    quietjosen  
    OP
       2020-02-18 11:27:09 +08:00
    @kevtyle 小程序分发成本低,就先拿来做。如果用户量大,可以考虑更适合的产品形态。
    guozhaoti
        15
    guozhaoti  
       2020-02-18 18:40:26 +08:00
    理想中这样的功能应该是能弹个浮窗,实时捕获其他应用的音频流然后转化成文字,你这样的小程序需要把视频音频下载到本地然后在上传转换,不够强大,大兄弟继续努力
    quietjosen
        16
    quietjosen  
    OP
       2020-02-18 19:13:03 +08:00 via iPhone
    @guozhaoti 可以录屏后识别。实时的,可以了解我的「说字」
    enderftt
        17
    enderftt  
       2020-02-18 22:49:18 +08:00
    试试看
    codehz
        18
    codehz  
       2020-02-23 19:30:00 +08:00   1
    @guozhaoti 谷歌给自家的 Pixel 的 android10 已经上线了这个功能了,(虽然只有英文),对任意视频都可以用,除了音乐的识别效果略差(
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1413 人在线   最高记录 6679       Select Language
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 16:53 PVG 00:53 LAX 09:53 JFK 12:53
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86