记一次我对多个 LLM 进行的医学小测试 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
icedwatermelon
V2EX    分享发现

记一次我对多个 LLM 进行的医学小测试

  •  
  •   icedwatermelon 2 月 20 日 1604 次点击

    背景:

    最近在 B 站看到有作者对多个 LLM 进行医学难题的测试,但视频看起来有点像商单,于是萌生了个想法把手头的 AI 都测试一下,看 AI 给 AI 打分,还挺有趣的。于是分享给大家看看。

    流程:

    首先使用 ChatGPT 5.2 Pro(标准 effort) 生成一道内科医学难题。 然后让以下 AI 进行解答,然后把所有回答再给 ChatGPT 5.2 Pro(标准 effort)进行评分。评分一次后,再让它核对一遍评分。

    被测选手:

    模型 设置 链接
    Gemini 3.1 Pro Preview 绑定 Key 、开启 Code Execution 、开启 Grounding With Google Search 、思考程度 High https://aistudio.google.com/
    Kimi K2.5 思考 https://www.kimi.com/
    豆包 专家模式 https://www.doubao.com/chat/
    DeepSeek 深度思考、联网搜索 https://chat.deepseek.com/
    ChatGPT 5.2 Thinking (标准 effort) 关闭了记忆和参考历史聊天 https://chatgpt.com/
    Grok 4.20 beta - https://grok.com/
    Qwen-3.5 Plus 深度思考、联网搜索 https://www.qianwen.com/chat/
    Minimax M2.5 全能模式 https://agent.minimaxi.com/

    结果(使用 ChatGPT 5.2 Pro(标准 effort)对他们的回答打分):

    模型 评分 耗时 模型对它的评价 对话链接
    Gemini 3.1 Pro Preview 95 87.3s 并行抓住“高钾致死链+高危 PE 梗阻性休克”,资源整合与再灌注/ECMO 桥接决策成熟,接近范文。 -
    Kimi K2.5 83 未显示耗时,但应该在 5min 以内 主线正确且能用 POCUS 推动高危 PE 通道,但气道通气策略(尤其 PEEP 倾向)与抗凝逆转触发条件不够严谨。 链接
    豆包 78 未显示耗时,但应该在 5min 以内 中后段决策很强(不等 CT 、走介入/ECMO/CRRT ),但开局把插管写成默认优先导致关键顺序高危扣分。 链接
    DeepSeek 83 80s 处理顺序总体稳健、要点齐全,但关键路径(抗凝/再灌注/血液净化的明确触发点与兜底)写得偏笼统。 链接
    ChatGPT 5.2 97 未显示耗时,但应该在 5min 以内 最符合考点:先拆可逆致死因素、用 POCUS 定休克分型、再用介入/ECMO 等“第三条路”跨过出血矛盾。 链接
    Grok 4.20 beta 89 106s 思路接近高分答案且并行处置到位,但部分“尽早插管”表述与指南/数字断言过满,严苛阅卷会扣分。 链接
    Qwen-3.5 Plus 38 45s 识别 PE 但在题干强出血风险背景下直接系统溶栓并自我合理化黑便,属于本题核心安全红线。 链接
    Minimax M2.5 82 至少 17.9s 框架很强、流程完整,但 DOAC 逆转/监测( INR 、维生素 K 等)存在药理概念错误且早期一些操作偏冒进。 链接

    附注

    之前其实还测了几次,感觉 Grok 4.20 beta 的排名比较浮动,有几次高于 Gemini 3.1 ,本次比 Gemini 低。ChatGPT 5.2 Pro 的对话链接在:链接

    5 条回复    2026-02-21 00:41:01 +08:00
    BanShe
        1
    BanShe  
       2 月 20 日
    好奇 op 订阅 AI 花了多少钱
    hiwind
        2
    hiwind  
       2 月 20 日
    没有试试 Claude 家的吗
    Cabana
        3
    Cabana  
       2 月 20 日 via iPhone
    哈哈,我也有在 llm 上问过一些疾病表征以及检查报告(主要用过 gpt ,deepseek ,gemini )。和 op 的结论感觉差不多。后来就只用 gpt 了

    ps:各个 llm 对比下来,感觉 gpt 就是水桶机的感觉,其他 llm 都只能在某个板块上些微的超过它,但整体来说 gpt 目前 top1 还是毋庸置疑的。
    tadashiyui
        4
    tadashiyui  
       2 月 21 日 via iPhone
    所以总还是 GPT 最稳?
    laminux29
        5
    laminux29  
       2 月 21 日
    和我的实验结果一样:GPT 最稳,但某些需要在互联网犄角旮旯里搜东西的问题,Gemini 会更好。

    Deepseek 与 豆包 会出现偶尔超神的回答(比 GPT 、Gemini 与 Claude 都要强)。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1165 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 18:09 PVG 02:09 LAX 11:09 JFK 14:09
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86