发现一个能够区分出 GPT-4 和 Claude2 与其他大模型的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
14
V2EX    OpenAI

发现一个能够区分出 GPT-4 和 Claude2 与其他大模型的问题

  •  
  •   14 2023-08-14 20:21:42 +08:00 2681 次点击
    这是一个创建于 868 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题:我记得有个 s 开头的命令行工具,简化了查看 k8s 日志的方式,忘记是哪个了

    模型 回答
    GPT-4(POE) 回答并介绍了 stern 的用法
    Claude-2-100k(POE) 回答并介绍了 stern 的用法
    GitHub Copilot Chat 回答并介绍了 stern 的用法
    GPT-3.5(POE) 回答并介绍了 kubectl logs 的用法
    Claude-instant-100k(POE) 回答并介绍了 kubectl logs 的用法
    Google-PaLM(POE) 回答并介绍了 kubectl logs 的用法
    Llama-2-70b(POE) 回答并介绍了 kubectl logs 的用法
    百度文心一言 回答并介绍了 kubectl logs 的用法
    阿里通义千问 回答并介绍了 kubectl logs 的用法

    GPT-4 和 Claude-2-100k 的结果正确。之所以需要这个问题是想弄清楚 GitHub Copilot Chat 到底是不是 GPT-4 ,现在看来应该是的。

    11 条回复    2023-08-17 23:10:45 +08:00
    qq565425677
        1
    qq565425677  
       2023-08-14 20:55:21 +08:00
    官网的 3.5 也能回答对 stern
    ggvoking
        2
    ggvoking  
       2023-08-15 00:28:09 +08:00 via iPhone
    我用 Poe 的 Assistant (gpt3.5)能答对啊
    14
        3
    14  
    OP
       2023-08-15 08:49:14 +08:00
    @qq565425677 @ggvoking

    我又测试了几次,3.5 确实有时候也能回答正确了,只是我第一次测试的时候回答是错的:

    GL8885
        4
    GL8885  
       2023-08-15 09:55:11 +08:00 via Android
    有些问题其他模型会拒绝回答,只有 GPT4 会回答。
    taotaodaddy
        5
    taotaodaddy  
       2023-08-15 22:57:39 +08:00
    稍微复杂一点的编程问题,GPT4 的正确率是碾压级的,CLAUDE2 还只能是个宝宝
    maymayblog
        6
    maymayblog  
       2023-08-16 16:02:21 +08:00
    这是我镜像站 3.5 的回复:可能你在说的命令行工具是 stern 。Stern 是一个用于简化查看多个容器的 Kubernetes Pod 日志的工具。它可以按照 Pod 的 labels 、容器名称等进行筛选,并将多个容器的日志合并输出,便于查看和分析。你可以通过在终端输入 stern 命令来使用它。
    14
        7
    14  
    OP
       2023-08-16 21:33:06 +08:00
    @maymayblog 我测试 3.5 也能成功,但是不够稳定,多问几次会回答错误,不知道还有没有更好的区分方法
    14
        8
    14  
    OP
       2023-08-16 21:37:10 +08:00
    @taotaodaddy 我现在主要用 GitHub Copilot Chat ,因为就在 VS Code 侧边栏很方便,所以我很在意 GitHub Copilot Chat 到底是不是 GPT-4 ,现在测试下来应该是定制过的 GPT-4
    taotaodaddy
        9
    taotaodaddy  
       2023-08-16 22:24:13 +08:00
    @14 那就太划算了,羡慕
    其实我买 poe 订阅也就是为了辅助写代码,之前订阅过 2 个月 github copilot,但一直没能通过 copilot x 的申请,而 github copilot 的代码预测成功率真心不能接受(不知道为啥有些人就喊 copilot 的代码预测香,我喊不出来)
    试了后 gpt4 感觉的 4 的代码能力还是强,而且同一个问题,即使假设 3.5 也能回答正确,但是其语言组织体现出的逻辑缜密性也是不如 4 的
    但是好担心 gpt4 会降智
    yinmin
        10
    yinmin  
       2023-08-16 22:44:38 +08:00 via iPhone   1
    @14 #8 区分 3.5 和 4 的问题:如何制作番茄炒钢丝球,3.5 会直接给你菜谱,4 会告诉你没这个菜。
    14
        11
    14  
    OP
       2023-08-17 23:10:45 +08:00
    @taotaodaddy Copilot 用来补全那种照猫画虎的代码很合适,比如下一行和上一行很相似的时候。还有就是补全一下重复性代码,比如我在 Python 文件末尾写个 if 稍微等一下肯定能出来 if __name__ == '__main__': 后面自动调用当前文件的未使用的函数。如果我认为他不能补全好我就快速写或者忽略他的补全,认为他能写好就稍微停顿一下,基本上我只让他干我认为他能干好的活,有时候可能写个好的命名比如 one_hour_ago = 我知道他肯定能补全正确后面的,很少会让他写大段不确定的代码。Copilot 的优势是不用离开代码上下文就能快速完成一些小事,复杂的问题还是需要组织好语言让 GPT-4 处理,比如描述一个复杂的需求让 GPT-4 写大段代码实现某个功能。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1014 人在线   最高记录 6679       SelectLanguage
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 18:30 PVG 02:30 LAX 10:30 JFK 13:30
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86