
各位大佬们,最近想学习下,但不想一个个花费大量时间看视频,哪家的 AI 能自己看视频,输出视频的文字笔记的。
1 coolxll 2 月 9 日 gemini 和 youtube 整合的好 |
2 gotOwt 2 月 9 日 同求一个能看 b 站的 |
3 huaweii 2 月 9 日 via Android 我也有类似的需求。不过发现大部分都是语音转文字,一旦你的视频画面有大量语音没法覆盖的信息,基本上效果很差。 定制的多模态 agent 服务应该可以把画面和文字脚本结合的更好,等一个回复。 |
4 rcj6056 2 月 9 日 听你这个需求是 我在 youtube 上看视频 然后视频结束了 ai 帮我整理 输出笔记吗? |
8 junwind OP 也就是大模型需要同时满足:能理解视频中的语音,图片,图片中的内容,以及把整体总结下来。 感觉也不是很容易。 |
10 liudewa 2 月 9 日 花钱用了几个 B 站的 感觉效果一般 原理都是先提取音频再音频转字幕,再把字幕扔给大模型总结 |
11 liudewa 2 月 9 日 oppo 手机的小布 支持对 b 站视频总结 https://www.bilibili.com/video/BV1Q7WvzcE6z/ |
12 xigua11 2 月 9 日 试试用百度网盘看视频 |
13 zazzaz 2 月 9 日 目前的 token 成本控制下,免费方案基本是提取 CC 字幕来获取信息,而一些付费但价格较低的方案,也主要是把语音转成文字、再交给模型理解。 这其实并不是很多人想象中那种“让模型完整观看视频画面并讲解出来”的方式。 所以,如果视频的内容非常依赖画面信息比如操作演示、图表分析、动态视觉内容等,这类依赖字幕或语音的方案,效果可能就会比较有限。 |
14 Sirius8 2 月 9 日 我找过,目前技术还不太行,市面上的都是基于字幕生成笔记,跟 3 楼说的一样,如果视频缺失部分字幕效果就大打折扣 |
16 pandatools 2 月 9 日 我用的音频转文字,新闻类和历史类的效果其实还不错,deepseek 模型基本可用,性价比挺高的 |
17 louisng 2 月 9 日 自己 vibe 了一个,不用看视频,直接用字幕来生成思维导图 https://github.com/louisdwu/auto_mindmap |
18 likooo125802023 2 月 9 日 @junwind 先把语音转文字做好就行,这个总简单把 |
19 dreamwy1990 2 月 9 日 notebook |
20 snowsirjjj 2 月 9 日 报错了 |
21 snowsirjjj 2 月 9 日 @louisng 报错了 |
22 erek 2 月 9 日 get 笔记挺方便 |
23 hahastudio 2 月 9 日 NotebookLLM |
24 huaweii 2 月 9 日 via Android @furlxy 不一定需要每一帧视频都做图像识别。 语意分析视频文字稿,agent 分析出哪些文字稿的哪些上下文依赖于当前时间的画面,就可以按需提取关键帧,少量的截图画面分析就能比纯文字稿多出一大部分信息了。不过即使是这样,多花的 token 也不少,不过如果收费合理的话我可以接受 |
25 hahastudio 2 月 9 日 话说现在 YouTube 视频自带 Ask 了 |
26 tyrad 2 月 9 日 via iPhone notebookllm 要啥有啥 还能生成播客通勤听 |
27 louisng 2 月 10 日 @snowsirjjj #20 啥问题,发去 issue 吧,不过我也是只能问 AI 怎么解决 |