不服 GPT4-Turbo!马斯克发布最新多模态大模型 Grok-1.5V - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
spoock1024
V2EX    OpenAI

不服 GPT4-Turbo!马斯克发布最新多模态大模型 Grok-1.5V

  •  
  •   spoock1024 2024-04-14 22:10:09 +08:00 2355 次点击
    这是一个创建于 622 天前的主题,其中的信息可能已经有所发展或是发生改变。

    原文链接:挑战 GPT-4V !马斯克发布 Grok-1.5V

    OpenAI 刚刚发布了最强的 GPT4-Turbo 模型。

    就在 4 月 12 号,马斯克就推出了 Grok-1.5V ,Grok-1.5V 模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。

    Introducing Grok-1.5V, our first-generation multimodal model. In addition to its strong text capabilities, Grok can now process a wide variety of visual information, including documents, diagrams, charts, screenshots, and photographs. Grok-1.5V will be available soon to our early testers and existing Grok users.

    官方博文表示:「 Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。

    Grok-1.5V 测试结果

    我们看到了 Grok-1.5V 与 GPT-4V 、Claude 3Sonnet 、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。

    Grok 表示:「 Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中,Grok 的表现优于同类产品。对于下面的所有数据集,我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

    但是从我自己的使用体验来看,GPT4-Turbo 目前还是最好用的,尤其是在编码方面,其他的大模型还是和 GPT4-Turbo 有很大的差距。

    按照 ChatGPT4 Turbo 升级教程 ,可以升级体验下最新版本 GPT4-Turbo 。

    referer:https://x.ai/blog/grok-1.5v

    目前,Grok-1.5V 将很快对我们的早期测试者和现有 Grok 用户开放,还没有开放源代码。

    Grok-1.5V 实际表现

    referer:https://x.ai/blog/grok-1.5v

    虽然 Grok-1.5V 没有完全对用户开放,但是在博客中展示了 Grok-1.5V 的七个示例。

    这所有的例子中,都是要求 Grok-1.5V 识别图像,然后回答问题

    分别是:

    • 根据图表编写代码
    • 计算卡路里
    • 根据图片讲故事
    • 解释梗图
    • 将表格转换为 CSV 文件格式
    • 辨别木头的腐朽程度
    • 解决 Leetcode 中等难度的问题

    看下最后解决 LeetCode 中等难度题目的例子吧

    提示词

    Prompt:Can you write Python code that solves this?(你能编写 Python 代码来解决这个问题吗?)

    Grok 回答

    def find_triplets(nums): result = [] nums.sort() for i in range(len(nums) - 2): if i > 0 and nums[i] == nums[i - 1]: continue target = -nums[i] left = i + 1 right = len(nums) - 1 while left < right: if nums[left] + nums[right] == target: result.append([-target, nums[left], nums[right]]) left += 1 right -= 1 while left < right and nums[left] == nums[left - 1]: left += 1 while left < right and nums[right] == nums[right + 1]: right -= 1 elif nums[left] + nums[right] < target: left += 1 else: right -= 1 return result 

    我看了下官方给出的示例,看起来 Grok 1.5V 的 OCR 功能确实还可以。

    大家有兴趣,也可以去看看官网给出的例子。

    希望 Grok-1.5V 给出的例子是真是的,不要到后面开放的时候被打脸了。(不过马斯克这个人真不太好说

    总结

    从 Grok-1.5V 放出来的实例来看,Grok-1.5V 的图片识别能力还是很强的。毕竟 Grok-1.5V 是马斯克的,估计是借鉴了特斯拉的图像识别技术。

    ChatGPT 刚刚更新了最新最强大的 GPT4-Turbo ,马斯克这边立马放出来了 Grok-1.5V 。

    看来各家的大模型技术又要卷起来了啊。

    现在的大模型的竞争,让我想起了当年国产手机的发布会的感觉,各家都不断迭代开发新技术发布新手机,都给我卷起来!

    现在工作都离不开 ChatGPT 了。希望后面的大模型可以给我们带来更多的惊喜,最终收益的还是我们这些普通用户,

    2 条回复    2024-04-15 14:16:02 +08:00
    feirisu
        1
    feirisu  
       2024-04-15 10:24:20 +08:00
    总感觉这些评测指标不是很靠谱。
    我测试过一段字节压缩算法给 AI 解释并让给出优化方案,测试了 Opus ,和 GPT4 ,Opus 回答很明显不行,而 GPT4 确实能指出可优化的点,不知道是否是内置 prompt 的差距。
    如果评测上各项指标都接近,我觉得至少应该给出类似的或接近的答案。
    spoock1024
        2
    spoock1024  
    OP
       2024-04-15 14:16:02 +08:00
    @feirisu 我自己体验,GPT4 也是最好用的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2838 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 12:24 PVG 20:24 LAX 04:24 JFK 07:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86