想要讨论一下使用 GPT 作为搜索引擎的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hahastudio
V2EX    OpenAI

想要讨论一下使用 GPT 作为搜索引擎的问题

  •  
  •   hahastudio
    hahastudio 2023-02-12 11:05:25 +08:00 2467 次点击
    这是一个创建于 1047 天前的主题,其中的信息可能已经有所发展或是发生改变。

    关于最近很火的 ChatGPT ,我希望我并不是因为媒体说它很厉害、很多人吹它很厉害,就认为它很厉害。我希望我能更多地了解它的原理。 目前看大家的应用场景,我觉得主要集中在这几个方面:

    • 辅助生成代码、配置文件
    • 辅助写作,特别是一些程式性的文章(例如周报、ReadMe )
    • 充当搜索引擎

    关于充当搜索引擎这部份,我有一些担忧。ChatGPT 会理直气壮地返回一些事实性的错误,例如它会说鲁迅和周树人不是同一个人。Google 之前宣传的 Bard 也有类似的问题。传统的搜索引擎会返回来源,而 ChatGPT 会模糊来源,让人更难判断真伪。如果我一定要用的话,我会先用 ChatGPT 询问,然后再回到搜索引擎去寻找来源,感觉就像是多做了一步。

    目前我的问题主要集中在 GPT 的训练部分。如果作为搜索引擎的话,GPT 应该需要像传统搜索引擎一样,持续不断地爬取互联网的新内容,用来训练。而关于这段训练,我有两个问题:

    1. GPT 的增量训练是不是非常简单?只需要把新文本当做新的训练集追加训练就好了?
    2. 如果后续发现爬取的内容有事实错误,想要 GPT 里面剔除这些内容,是不是代价非常高?基本上只能从头训练?

    如果是这样的话,那么会不会有以下的问题:

    1. 对返回结果进行投毒变得比较容易,特别是时事内容。在时事内容还在一些主流的媒体网站传播的时候,就利用大量的小网站或者在其他网站的评论里投毒。投毒的内容可以夹在随机的语句之中。
    2. 时事还在发展进行中,经历了“反转”,那么 GPT 是不是就很难返回最新进展。
    3. 运营公司需要消耗大量成本来剔除投毒内容,那是不是只从有声望的大网站上爬取内容就好了?这样的话,是不是互联网的内容会更加集中到大型网站里,小网站更难有出头之日?
    6 条回复    2023-06-23 11:28:14 +08:00
    churchmice
        1
    churchmice  
       2023-02-12 11:29:27 +08:00 via Android
    我的一个观察,不一定对
    当初搜索引擎出现的时候也是一个大变革,但是信息这个东西需要你做甄别,要交叉对比,而不是只看搜索引擎返回的结果
    chatgpt 也是如此,然鹅现在的人动手能力已经下降的很快了,比如找电影,在腾讯爱奇艺里面找不到就没辙了,不知道拿搜索引擎搜一搜
    alalida
        2
    alalida  
       2023-02-12 11:31:03 +08:00 via Android
    你先理解一下 in context learning 再来看这些问题
    alalida
        3
    alalida  
       2023-02-12 11:31:37 +08:00 via Android
    GPT 的增量训练非常昂贵
    pochy06
        4
    pochy06  
       2023-02-12 13:07:12 +08:00   2
    1. 看有多少数据,以及是多大的模型。OpenAI 其实已经提供了 fine-tune 接口,训练价格$0.0300/k token
    2. 不是的。可以利用 RLHF 的方法让模型自己有一些筛选能力,或者使用事实检测(假新闻检测)的方法做筛选
    3. 目前的一个趋势是检索式方法+生成式模型( retrieval-enhanced pretrained language model ),在一定程度上可以解决这种问题,即结合搜索引擎的实时性内容优势+少批量候选,利用生成式语言模型做最后召回 /生成。(也许)这就是为什么 new bing 可以做到回答 2021 年以后的问题。所以“返回最新进展”这个需求不是一个简单的单模型问题,而是一个系统问题。
    DeltaC
        5
    DeltaC  
       2023-02-12 13:14:26 +08:00
    个人不看好 chatgpt 向搜索引擎方向发展。
    想一想自己从搜索引擎搜索信息然后取信依靠的什么指标,或者换一种说法,当接触到一个信息时,我们自己的知识储备不能判断其正误,我们通过什么因素去判断信息的价值呢?
    我感觉有一下三点
    1.其他人类的选择,比如 stackoverflow 的 vote ,git repo 的 star ,以及评论区的反馈;
    2.“交叉验证”,从不同的信源,得到了相近的结论,那我们倾向于认为是可信的;
    3.“专家系统”,领域知名专家 /开发者的结论,也倾向于可信。比如 russ cox 讲 memory model ,linus 讲 os 。

    目前,我觉得 chatgpt 这三点做的都不行。

    个人看好 chatgpt 向某个特定领域的发展,比如
    - 辅助生成代码、配置文件
    - - tabnine,copilot 已经比较成熟了,后者我正在用,写 makefile,cmakelists 是相当的好用。
    - 辅助写作,特别是一些程序性的文章(例如周报、ReadMe )

    专注于某个特定的领域,只给模型特定领域的数据集,要像个“偏科生”,而不是“百科全书”,如此发展,我看好。

    此外,chatgpt 这类东西仅在三产绕圈子,貌似没有影响到一二产,我认为影响力有限。
    bigtang
        6
    bigtang  
       2023-06-23 11:28:14 +08:00
    chatgpt 的核心价值是生成,不是检索
    目前的最大缺点是响应慢,而检索能达到毫秒级,体验一下源代码检索网站: www.tanglib.com , AI 目前根本达不到这个速度。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3219 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 11:11 PVG 19:11 LAX 03:11 JFK 06:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86