请问: 如何让 chatGPT 总结视频的内容? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Angela2022
V2EX    OpenAI

请问: 如何让 chatGPT 总结视频的内容?

  •  
  •   Angela2022 2024-02-13 07:40:04 +08:00 4523 次点击
    这是一个创建于 684 天前的主题,其中的信息可能已经有所发展或是发生改变。
    发了视频链接给 chatGPT, 返回: 抱歉,我无法访问外部链接或查看特定的在线视频内容

    请问: 如何让 chatGPT 总结视频的内容? 谢谢
    22 条回复    2024-02-14 09:56:23 +08:00
    Nosub
        1
    Nosub  
       2024-02-13 07:58:58 +08:00 via iPhone
    提取音频内容,语音识别内容,然后把文字内容喂给它。
    Nosub
        2
    Nosub  
       2024-02-13 08:10:14 +08:00 via iPhone
    补充一点,如果要一帧一帧的分析视频视频画面以及结合音频应该也是可以的,应该也有很多公司已经在做了,但是你直接丢一个视频外部链接给 ChatGPT ,是不是有点难,试想一个场景,比如一个外链,视频 2 小时,是流媒体,难道要 ChatGPT 在这个网站观看 2 小时,然后再给你结果。
    Evergreen
        3
    Evergreen  
       2024-02-13 08:27:47 +08:00 via Android
    @Nosub 应该不对吧,ai“观看”视频和人类不一样吧,人类需要两小时是因为需要分析视频画面内容,而 ai 处理信息的方法不一样且速度快多了
    xyy003
        4
    xyy003  
    PRO
       2024-02-13 09:03:38 +08:00 via iPhone
    可以看看这个项目: https://github.com/disingn/cliptalk
    dji38838c
        5
    dji38838c  
       2024-02-13 09:14:05 +08:00
    GPTs 里面不就有 Free YouTube Summarizer 吗?
    JensenQian
        6
    JensenQian  
       2024-02-13 09:31:17 +08:00
    现在好多都是
    音频转文字,文字总结就完事
    canxin
        7
    canxin  
       2024-02-13 09:43:33 +08:00 via iPhone
    大多数应该都是先提取字幕再总结内容吧?语音转文字用的时间可太久了
    SillyGod
        8
    SillyGod  
       2024-02-13 10:20:21 +08:00 via Android
    最简单的是直接识别音频总结
    最完整的是音频+视频逐帧分析
    callmesmc
        9
    callmesmc  
       2024-02-13 10:26:46 +08:00 via iPhone
    总之不管怎么样都必须文字喂给他,有字幕就字幕,没字幕就创造字幕..
    vincentqi
        10
    vincentqi  
       2024-02-13 10:40:05 +08:00
    https://bibigpt.co/r/VfmiZN
    一个链接总结主流音视频文字媒体概要
    yanyao233
        11
    yanyao233  
       2024-02-13 11:44:26 +08:00 via Android
    普遍采用的方案就是音频转文字

    逐帧截取也不是不行,但成本太高、耗时太长,不划算
    abc500
        12
    abc500  
       2024-02-13 11:46:35 +08:00 via Android
    poe 上好多个这样的 但现在用不了 不知道为什么 好像不是提取字幕 而是客户评价 我不确定
    xyy003
        13
    xyy003  
    PRO
       2024-02-13 11:52:03 +08:00 via iPhone
    @yanyao23 逐帧和视频字幕结合是最好的 嘎嘎准
    winterx
        14
    winterx  
       2024-02-13 11:54:24 +08:00
    很好奇 B 站的小助手是怎么实现提取这么精准的
    smalltong02
        15
    smalltong02  
       2024-02-13 12:11:01 +08:00
    gemini 可以处理 2 分钟以内的视频
    smalltong02
        16
    smalltong02  
       2024-02-13 12:13:27 +08:00
    如果你可以把音频提取出来,也可以试一下 Qwen-Audio-Chat 模型,它可以按照自然语言的要求处理音频,比如列出音频内容的提纲。
    Nosub
        17
    Nosub  
       2024-02-13 12:34:30 +08:00 via iPhone
    @Evergreen 这里的问题不是查看方式的问题,是爬虫的问题,我特意说了流媒体,就是你不能一次性获取完整的视频,ChatGPT 还没有强大到可以爬取任意视频。
    imliukai
        18
    imliukai  
       2024-02-13 12:53:07 +08:00
    @dji38838c YouTube 官方提供了视频字幕的接口,所以总结 YouTube 视频会简单很多。
    yanyao233
        19
    yanyao233  
       2024-02-13 14:48:04 +08:00 via Android
    @smalltong02 才知道有这么个模型 看起来有点意思
    bugu1986
        20
    bugu1986  
       2024-02-13 20:43:14 +08:00 via iPhone
    字幕 https://github.com/buhe/langchain-swift 手机不方便,用 youtubeloader
    YsHaNg
        21
    YsHaNg  
       2024-02-14 07:19:42 +08:00 via iPhone
    @Nosub TensorRT-LLM maybe 可以
    Byzliu
        22
    Byzliu  
       2024-02-14 09:56:23 +08:00 via Android
    阿里云的通义听悟把语音转文字再发给 GPT
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     910 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 18:43 PVG 02:43 LAX 10:43 JFK 13:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86