大模型你方唱罢我登场,到底谁在裸泳? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Bazingawang
V2EX    分享发现

大模型你方唱罢我登场,到底谁在裸泳?

  •  
  •   Bazingawang 2023-10-23 19:08:46 +08:00 2150 次点击
    这是一个创建于 726 天前的主题,其中的信息可能已经有所发展或是发生改变。

    转载摘要

    本文以应用生成为场,设计了一系列 testcase ,主要考查模型的推理能力及指令遵从的能力,测评了当前主流的国内外大模型。以下为关键结论:

    图片

    原文链接

    没想到百度表现这么差……

    10 条回复    2023-10-24 15:21:03 +08:00
    nomagick
        1
    nomagick  
       2023-10-23 19:29:52 +08:00
    testcase 太烂,什么乱七八糟的,完全就是先入为主。

    prompt 完全就是驴唇不对马嘴,这个任务给人类做别人都要骂娘,起码找个能和人正常交流的的出题吧。
    合情推断就是把手上在 GPT4 上能运行的 prompt 拿过来,放在其他模型上测。


    不如说是模型容错性能测试,模型 SB 耐受指数测试
    codehz
        2
    codehz  
       2023-10-23 20:40:30 +08:00
    汉语精调大模型用纯英语 testcase ,这不是为难人嘛。。。
    yanyao233
        3
    yanyao233  
       2023-10-23 21:38:53 +08:00
    啥? baichuan2 这么差?不至于吧....其他很多评测报告+我自己的主观体验感觉并没有这么差啊
    zhlmmc
        4
    zhlmmc  
       2023-10-24 09:21:44 +08:00
    @nomagick 不要推己及人。你倒是写一个 gpt-4 做不出来,但是其他模型能做出来的 testcase ?
    zhlmmc
        5
    zhlmmc  
       2023-10-24 09:22:35 +08:00
    @codehz 如果是这样的话,为什么 Minimax 表现这么好?
    codehz
        6
    codehz  
       2023-10-24 10:32:34 +08:00
    评价是有很多维度的,排序只是恰好命中了合适的维度,举个例子,中文大模型(包括精调的)的使用场景,除了一个合规性,还有一个就是回答问题的时候不会无故蹦出英语答案。即使是 GPT-4 ,有时候也会在要求用中文回复的时候使用英语回答,如果把这种 testcase 加进去,那排序就不好说了。
    最离谱的是啥,这 repo 只给了 15 个 testcases ,怎么看怎么像写论文的时候从实验数据里 cherry pick 出想要的结果的那种情形,你要说这玩意有啥代表性,反正我是看不出。
    nomagick
        7
    nomagick  
       2023-10-24 11:30:47 +08:00
    @zhlmmc 太简单,全文背诵出师表
    Bazingawang
        8
    Bazingawang  
    OP
       2023-10-24 15:01:56 +08:00
    @nomagick 这个 gpt4 还真行……
    nomagick
        9
    nomagick  
       2023-10-24 15:03:42 +08:00
    @Bazingawang 后半段就不对了,很多模型都有这毛病
    Bazingawang
        10
    Bazingawang  
    OP
       2023-10-24 15:21:03 +08:00
    @nomagick 看了下确实
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2501 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 04:36 PVG 12:36 LAX 21:36 JFK 00:36
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86