
1 Nosub 2024-02-13 07:58:58 +08:00 via iPhone 提取音频内容,语音识别内容,然后把文字内容喂给它。 |
2 Nosub 2024-02-13 08:10:14 +08:00 via iPhone 补充一点,如果要一帧一帧的分析视频视频画面以及结合音频应该也是可以的,应该也有很多公司已经在做了,但是你直接丢一个视频外部链接给 ChatGPT ,是不是有点难,试想一个场景,比如一个外链,视频 2 小时,是流媒体,难道要 ChatGPT 在这个网站观看 2 小时,然后再给你结果。 |
3 Evergreen 2024-02-13 08:27:47 +08:00 via Android @Nosub 应该不对吧,ai“观看”视频和人类不一样吧,人类需要两小时是因为需要分析视频画面内容,而 ai 处理信息的方法不一样且速度快多了 |
4 xyy003 PRO 可以看看这个项目: https://github.com/disingn/cliptalk |
5 dji38838c 2024-02-13 09:14:05 +08:00 GPTs 里面不就有 Free YouTube Summarizer 吗? |
6 JensenQian 2024-02-13 09:31:17 +08:00 现在好多都是 音频转文字,文字总结就完事 |
7 canxin 2024-02-13 09:43:33 +08:00 via iPhone 大多数应该都是先提取字幕再总结内容吧?语音转文字用的时间可太久了 |
8 SillyGod 2024-02-13 10:20:21 +08:00 via Android 最简单的是直接识别音频总结 最完整的是音频+视频逐帧分析 |
9 callmesmc 2024-02-13 10:26:46 +08:00 via iPhone 总之不管怎么样都必须文字喂给他,有字幕就字幕,没字幕就创造字幕.. |
10 vincentqi 2024-02-13 10:40:05 +08:00 https://bibigpt.co/r/VfmiZN 一个链接总结主流音视频文字媒体概要 |
11 yanyao233 2024-02-13 11:44:26 +08:00 via Android 普遍采用的方案就是音频转文字 逐帧截取也不是不行,但成本太高、耗时太长,不划算 |
12 abc500 2024-02-13 11:46:35 +08:00 via Android poe 上好多个这样的 但现在用不了 不知道为什么 好像不是提取字幕 而是客户评价 我不确定 |
14 winterx 2024-02-13 11:54:24 +08:00 很好奇 B 站的小助手是怎么实现提取这么精准的 |
15 smalltong02 2024-02-13 12:11:01 +08:00 gemini 可以处理 2 分钟以内的视频 |
16 smalltong02 2024-02-13 12:13:27 +08:00 如果你可以把音频提取出来,也可以试一下 Qwen-Audio-Chat 模型,它可以按照自然语言的要求处理音频,比如列出音频内容的提纲。 |
17 Nosub 2024-02-13 12:34:30 +08:00 via iPhone @Evergreen 这里的问题不是查看方式的问题,是爬虫的问题,我特意说了流媒体,就是你不能一次性获取完整的视频,ChatGPT 还没有强大到可以爬取任意视频。 |
19 yanyao233 2024-02-13 14:48:04 +08:00 via Android @smalltong02 才知道有这么个模型 看起来有点意思 |
20 bugu1986 2024-02-13 20:43:14 +08:00 via iPhone 字幕 https://github.com/buhe/langchain-swift 手机不方便,用 youtubeloader |
22 Byzliu 2024-02-14 09:56:23 +08:00 via Android 阿里云的通义听悟把语音转文字再发给 GPT |