大模型幻觉困境下,我们该如何使用它? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
c330
V2EX    OpenAI

大模型幻觉困境下,我们该如何使用它?

  •  
  •   c330 2024-08-14 11:03:26 +08:00 1250 次点击
    这是一个创建于 424 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在看大模型相关的内容,于是整理了一些内容,欢迎 V 友们阅读并提出建议。大家如果有想要了解的内容也可以留言告诉我,容我去整理,文章最后也放上了相关资料,感兴趣的可以查阅。


    “像我们这样相信物理学的人都知道,过去、现在和未来之间的区别只是一种顽固执着的幻觉。换句话说,时间是一种幻觉。” 波尔

    幻觉,即一种看似真,实为假的感受。最近接触到了一个概念:大模型幻觉。有点好奇,大模型还能产生幻觉?于是查找一些资料,开始了解。

    文章原创地址:大模型幻觉困境下,我们该如何为使用它

    大模型幻觉,像你身边那个爱吹牛的熟人

    关于大模型幻觉,官方一点的说法是这样的:

    大模型的幻觉问题,即Hallucination ,指模型基于有限元素和强大的语言表达能力生成逻辑上似乎合理但实际不符合已知常识的描述。幻觉可能由错误数据、训练过程失误、推理错误等多种原因触发。

    直白来说,大模型幻觉就是一本正经地胡说八道 。它就好像饭桌上,那个爱吹牛的熟人,推杯换盏间,嘴里几句真话、几句假话,不得而知。

    幻觉,是大模型的“通病”

    2023 年,一名联邦法官对纽约市的一家律师事务所处以 5000 美元罚款。原因是该所的一名律师,使用 ChatGPT 起草了一起人身伤害案件的摘要,而里面捏造了六个以上的案例。

    斯坦福大学和耶鲁大学的研究人员在关于三种流行的大语言模型( LLM )的研究预印本中发现,类似的错误在人工智能生成的法律输出里极为普遍。

    无论是哪种大模型,都会出现不同程度的“幻觉” 。其症状的轻重,与科技公司的实力相关。

    一般来说,大模型幻觉分为两大类:事实性幻觉和忠实性幻觉

    事实性幻觉强调生成的内容与可验证的现实世界事实之间的差异 。其通常表现为事实不一致或捏造。比如说回答历史事件的具体时间或人物关系时出现错误。

    忠实幻觉是指生成内容与用户构思或输入所提供上下文的差异,以及生成内容内部的自我一致性 。例如要求总结某一篇文章的主要内容,但模型生成的总结包含了原文中没有提到的观点或信息。

    大模型幻觉从何而来?

    OpenAI 华人科学家翁荔,在她最新的 Blog 中提到:产生幻觉的原因包括预训练数据问题和微调新知识问题

    • 预训练数据问题:使用的这些数据通常是从公共互联网抓取来的,可能存在数据太陈旧、某些关键部分缺失或者本身就是错误的。导致模型在学习这些数据时,记错了信息。
    • 微调:大模型引入新知识时,但模型学习新知识较慢,导致更容易产生幻觉。

    大模型幻觉会停止吗?

    不会 。在《hallucination is inevitable: an innate limitation of large language models》实验论文中,给出了一个基本结果:即无论模型架构、学习算法、提示技术或训练数据如何改变,对于任何可计算的 LLM 来说,幻觉是不可避免的

    亚利桑那州立大学研究人工智能的教授 Subbarao Kambhampati ,对此也说道:“所有计算机生成的创造力在某种程度上都是幻觉。”

    此外许多机器学习专家也不认为幻觉是可以修复的。比如微软研究院和佐治亚理工学院发表的《Calibrated Language Models Must Hallucinate》研究表示:经过校准的语言模型必然会出现幻觉

    所以从技术层面来说,由于现实世界问题的多样复杂性,无论如何训练大模型,总会存在超出模型能力的可解决问题。

    如何应对“幻觉”?

    “幻觉”虽不会停止,但我们可以尽可能地减轻幻觉。

    对于我们普通使用者来说,减轻幻觉的一个直接方法是:调教你的 AI ,并对其保持批判的态度

    • 不依赖单一来源:不要只依赖大模型作为获取信息的唯一来源,尝试结合多个渠道的信息进行综合判断。
    • 保持批判性思维:对大模型的输出保持警惕,思考其合理性和逻辑性,查验它给的信息。
    • 选择可靠的平台和工具:比如大厂的模型,通常实力更强,幻觉也会更少。

    技术层面来说,减少 LLM 幻觉的技术方法包括:

    • 高等提示词:通过编写更具体的提示词,如多事例学习,以及使用新的工具来优化提示词,管束 LLM 的幻觉问题。
    • Meta AI 的 Chain - of - Verification ( CoVe ):将事实核对分解为可管理的步骤,通过生成初始响应、组织验证问题、独立回答这些问题并生成最终经过验证的响应,来减少 LLM 的幻觉情况,提高响应正确性。
    • 知识图谱:将知识图谱集成到 RAG 中,利用其结构化且相互关联的数据,增强当前 RAG 系统的推理能力。
    • Raptor:通过建立更高层次的抽象来处理跨多个文档的问题,先从外部知识库中检索相关且经过验证的信息,然后将这些数据与原始查询一同嵌入到模型中,减少幻觉现象。
    • 共形抽离:通过应用共形猜想技术来确定模型何时应该停止给出响应,从而增加大型语言模型( LLMs )中的幻觉情况。
    • RAG 削减结构化输入中的幻觉情况:ServiceNow 通过 RAG 在生成文本之前从外部知识库中检索相关的 JSON 对象,确保生成过程基于正确且相关的数据,减少幻觉情况。

    大模型幻觉,造梦的工具

    读到这里,你会觉得这篇文章的内容都是正确的吗?不是的,有一点我其实在瞎说:开头的那句话并不是物理学家波尔说的,而是爱因斯坦。没有看过原句的朋友,肯定会把它当真的,然后可能用在别处。

    大模型会产生幻觉,人也会,人的交流也并不是百分百的准确和真实,所以我们也不用对大模型幻觉太过紧张。不过对于需要运用数据分析等严谨的工作来说,的确不建议依赖大模型,因为这需要自己具有出色的筛选和辨别大模型给出数据真假的能力,这非常考验个人能力素养。

    换个角度来看,大模型幻觉也有好处:对于一些需要“造梦”或者说“创造性”的内容来说,创意大于准确性,而幻觉正好可以提供很多灵感

    Subbarao Kambhampati 教授也说道:“今天的 LLM 从来都不是为了纯粹准确而设计的。它们被创造出来是为了创造为了生成。”

    参考资料

    1. https://arxiv.org/abs/2311.14648
    2. https://www.yinghuohong.cn/hulianwang/52756.html
    3. https://lilianweng.github.io/posts/2024-07-07-hallucination/
    4. https://arxiv.org/pdf/2401.11817.pdf
    1 条回复    2024-08-14 11:43:55 +08:00
    ljsh093
        1
    ljsh093  
       2024-08-14 11:43:55 +08:00
    读到这里,你会觉得这篇文章的内容都是正确的吗?不是的,有一点我其实在瞎说:开头的那句话并不是物理学家波尔说的,而是爱因斯坦。没有看过原句的朋友,肯定会把它当真的,然后可能用在别处。

    我就猜到
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2732 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 09:13 PVG 17:13 LAX 02:13 JFK 05:13
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86