AI 看视频,输出笔记哪家强? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
junwind
V2EX    问与答

AI 看视频,输出笔记哪家强?

  •  
  •   junwind 2 月 9 日 1893 次点击

    各位大佬们,最近想学习下,但不想一个个花费大量时间看视频,哪家的 AI 能自己看视频,输出视频的文字笔记的。

    28 条回复    2026-02-24 10:18:37 +08:00
    coolxll
        1
    coolxll  
       2 月 9 日
    gemini 和 youtube 整合的好
    gotOwt
        2
    gotOwt  
       2 月 9 日
    同求一个能看 b 站的
    huaweii
        3
    huaweii  
       2 月 9 日 via Android
    我也有类似的需求。不过发现大部分都是语音转文字,一旦你的视频画面有大量语音没法覆盖的信息,基本上效果很差。

    定制的多模态 agent 服务应该可以把画面和文字脚本结合的更好,等一个回复。
    rcj6056
        4
    rcj6056  
       2 月 9 日
    听你这个需求是
    我在 youtube 上看视频
    然后视频结束了 ai 帮我整理 输出笔记吗?
    junwind
        5
    junwind  
    OP
       2 月 9 日
    @rcj6056 差不多的意思,给个视频链接,或者视频文件,能帮我总结出图文笔记这种。其实就是代替自己看视频。毕竟看视频的效率太低了。
    rcj6056
        6
    rcj6056  
       2 月 9 日
    @junwind 挺有意思 这种目前哪个实现的效果好?
    junwind
        7
    junwind  
    OP
       2 月 9 日
    @rcj6056 我也不知道哪家大模型能做到很好的实现出来。这种应该是考验多模态的能力了。
    junwind
        8
    junwind  
    OP
       2 月 9 日
    也就是大模型需要同时满足:能理解视频中的语音,图片,图片中的内容,以及把整体总结下来。 感觉也不是很容易。
    furlxy
        9
    furlxy  
       2 月 9 日
    @huaweii 光想想就知道要多费 token...
    几个关键帧就要几次 vlm ,我的天
    liudewa
        10
    liudewa  
       2 月 9 日
    花钱用了几个 B 站的 感觉效果一般 原理都是先提取音频再音频转字幕,再把字幕扔给大模型总结
    liudewa
        11
    liudewa  
       2 月 9 日
    oppo 手机的小布 支持对 b 站视频总结 https://www.bilibili.com/video/BV1Q7WvzcE6z/
    xigua11
        12
    xigua11  
       2 月 9 日
    试试用百度网盘看视频
    zazzaz
        13
    zazzaz  
       2 月 9 日
    目前的 token 成本控制下,免费方案基本是提取 CC 字幕来获取信息,而一些付费但价格较低的方案,也主要是把语音转成文字、再交给模型理解。
    这其实并不是很多人想象中那种“让模型完整观看视频画面并讲解出来”的方式。
    所以,如果视频的内容非常依赖画面信息比如操作演示、图表分析、动态视觉内容等,这类依赖字幕或语音的方案,效果可能就会比较有限。
    Sirius8
        14
    Sirius8  
       2 月 9 日
    我找过,目前技术还不太行,市面上的都是基于字幕生成笔记,跟 3 楼说的一样,如果视频缺失部分字幕效果就大打折扣
    junwind
        15
    junwind  
    OP
       2 月 9 日
    @liudewa
    @xigua11 好的,我试试。
    pandatools
        16
    pandatools  
       2 月 9 日
    我用的音频转文字,新闻类和历史类的效果其实还不错,deepseek 模型基本可用,性价比挺高的
    louisng
        17
    louisng  
       2 月 9 日
    自己 vibe 了一个,不用看视频,直接用字幕来生成思维导图
    https://github.com/louisdwu/auto_mindmap
    likooo125802023
        18
    likooo125802023  
       2 月 9 日
    @junwind 先把语音转文字做好就行,这个总简单把
    dreamwy1990
        19
    dreamwy1990  
       2 月 9 日
    notebook
    snowsirjjj
        20
    snowsirjjj  
       2 月 9 日
    报错了
    snowsirjjj
        21
    snowsirjjj  
       2 月 9 日
    @louisng 报错了
    erek
        22
    erek  
       2 月 9 日
    get 笔记挺方便
    hahastudio
        23
    hahastudio  
       2 月 9 日
    NotebookLLM
    huaweii
        24
    huaweii  
       2 月 9 日 via Android
    @furlxy 不一定需要每一帧视频都做图像识别。

    语意分析视频文字稿,agent 分析出哪些文字稿的哪些上下文依赖于当前时间的画面,就可以按需提取关键帧,少量的截图画面分析就能比纯文字稿多出一大部分信息了。不过即使是这样,多花的 token 也不少,不过如果收费合理的话我可以接受
    hahastudio
        25
    hahastudio  
       2 月 9 日
    话说现在 YouTube 视频自带 Ask 了
    tyrad
        26
    tyrad  
       2 月 9 日 via iPhone
    notebookllm 要啥有啥 还能生成播客通勤听
    louisng
        27
    louisng  
       2 月 10 日
    @snowsirjjj #20 啥问题,发去 issue 吧,不过我也是只能问 AI 怎么解决
    junwind
        28
    junwind  
    OP
       2 月 24 日
    @rcj6056 不是,是直接让 ai 看完,整理出笔记。人不需要看。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3181 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 39.8.5 40ms UTC 13:10 PVG 21:10 LAX 06:10 JFK 09:10
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86