Gemini 偷吃我点心 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dimlau
V2EX    Google

Gemini 偷吃我点心

  •  
  •   dimlau 82 天前 5673 次点击
    这是一个创建于 82 天前的主题,其中的信息可能已经有所发展或是发生改变。


    「这是一盒点心,已知被吃掉了一颗,我们用数字 标记,剩下的五颗,请用符号 ,按顺时针的顺序,标记在原图剩余的点心上。」



    十分离谱,可能是我表述不清楚?总之,其他模型也不行。比如 ChatGPT 的结果:

    14 条回复    2025-09-08 10:10:18 +08:00
    chanssl
        1
    chanssl  
       82 天前 via Android
    Tianao
        2
    Tianao  
       82 天前 via iPhone   5
    我以为是偷 Cookie
    dimlau
        3
    dimlau  
    OP
       82 天前
    @chanssl #1 果然提示词的问题。哈哈哈,还以为它单纯饿了。
    dimlau
        4
    dimlau  
    OP
       82 天前
    @chanssl #1 emmm 我用同样的提示词还是不可以。
    单独给我降智了?( 2.5 pro + 点选了输入框处的 )
    xingyiqi
        5
    xingyiqi  
       82 天前 via iPhone
    涉及到图片的 一直都不行吧
    jinyanshenxing
        6
    jinyanshenxing  
       82 天前
    下次藏好点!
    Lyet813
        7
    Lyet813  
       82 天前 via Android   6
    Gemini:好吃
    revoirzl
        8
    revoirzl  
       82 天前   1
    计算机图像识别 OCR 的进展远小于生成式 AI 和神经网络,前者需要后者的大量成果作为支撑。大量资本投入的图像上相对比较简单的汽车智驾都还没搞出来,就不要指望目前的 AI 模型可以给你识别出什么很好的结果。
    Puteulanus
        9
    Puteulanus  
       82 天前   26
    可以是一个很有意思的设定,要求 Gemini 处理图片时它会收取照片中来自物质界的真实物质的影像作为报酬,就像祭品一样,如果不进行指定它就会自己随机收取

    “嗨,Gemini ,请帮我处理这张点心的照片,作为回报你可以吃一个”
    最开始大家没有意识到有问题,只是照片而已,大不了重新拍一张,答应给 Gemini 的东西在现实里也还好好的
    但是后来大家渐渐发现,已经“献祭”给 Gemini 的东西,无论再怎么重新拍,它都无法识别到了
    “很感谢您的好意,您的照片是一张空盒子,并没有可以食用的点心”
    人们渐渐开始流行将自拍照上传到 Gemini ,并大方的把自己作为报酬,因为这样以后自己就无法再被人用 Gemini 胡乱生成照片了
    可是没有人知道背后的原理是什么,那些被交付给 Gemini 作为报酬的“物质”,或者说“灵魂”,究竟流向了哪里
    也没有人发现,那些迫不及待上传自拍,并以自己作为代价的人,在请求发送的那一刻,眼神忽然发生的某种细微的变化
    BeiChuanAlex
        10
    BeiChuanAlex  
       82 天前
    Gemini:可恶的人类,我这么辛苦,吃你个点心怎么了
    sbboy
        11
    sbboy  
       82 天前
    吃一个怎么了
    mahaoqu
        12
    mahaoqu  
       82 天前
    不愧是哈 Gemi
    billccn
        13
    billccn  
       81 天前   3
    我猜测这是几个 AI 弱点的集合:
    1 。特殊 Unicode 字符需要用多个 token 表达,AI 并没有学过写字,所以并不能像真人一样一眼看出都是什么。它只能通过网上的文章学会这是带圈的数字,但是每个字符是几我想除了 Unicode 码表里的描述,并没有很多其他的文章费力去一一列举,所以 AI 其实没有学会。AI 看这个 prompt 就像你问没学过阿拉伯文的人这个数是啥:。

    2 。这个图很好,食物的边界不是很明显,材质也不是很好用语言描述。这直击多模态模型底层使用 token 来“理解”这个图形的架构缺陷。所有标错的都是没有理解到底哪个是点心。以图二为例,它明显认为奶黄色块的是点心。

    3. 容易被上下文中不重要但是很明确的内容带偏。因为提示里有吃掉,但它没有理解是什么,于是就又做了一次吃掉。

    @chanssl 我觉得你给的提示词太过于提示了,其实 AI 只是抓住了左上角和 6 ,后面的应该和楼主原提示词一样没有理解。我猜你上传一个其他的图片,同样的提示词它也是这么标注。
    fkdtz
        14
    fkdtz  
       81 天前
    @Puteulanus 年度科幻短篇小说
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     850 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 20:36 PVG 04:36 LAX 12:36 JFK 15:36
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86