Grok-1 开源了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
muzihuaner
V2EX    分享发现

Grok-1 开源了

  •  
  •   muzihuaner 2024-03-18 13:51:08 +08:00 via Android 4172 次点击
    这是一个创建于 574 天前的主题,其中的信息可能已经有所发展或是发生改变。
    3 月 18 日消息马斯克旗下 AI 初创企业 xAI 今天发布新闻稿,宣布正在开源 3140 亿参数的混合专家模型 Grok-1 ,该模型遵循 Apache 2.0 协议开放模型权重和架构,号称是“迄今为止全球参数量最大的开源大语言模型”可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100 (每个 80GB )就可以了。https://github.com/xai-org/grok-1
    23 条回复    2024-03-20 20:53:37 +08:00
    lilei2023
        1
    lilei2023  
       2024-03-18 14:54:36 +08:00
    没几个牛逼的 GPU ,估计跑不起来吧
    muzihuaner
        2
    muzihuaner  
    OP
       2024-03-18 15:07:19 +08:00
    @lilei2023 确实
    Bluecoda
        3
    Bluecoda  
       2024-03-18 15:16:40 +08:00   6
    自主创新又可以了
    huihuiHK
        4
    huihuiHK  
       2024-03-18 15:27:47 +08:00   2
    国内一大批自主创新正在路上
    cPO3Im7cn3lD39cU
        5
    cPO3Im7cn3lD39cU  
       2024-03-18 15:57:45 +08:00   1
    @Bluecoda 又乱说了
    明明是一大批自主研发的,不可能用别人的技术来创新的
    Beginner1
        6
    Beginner1  
       2024-03-18 16:23:40 +08:00
    314B 个参数,得什么水准的设备才能跑
    okakuyang
        7
    okakuyang  
       2024-03-18 16:23:54 +08:00 via iPhone
    老马还是说到做到的
    Beginner1
        8
    Beginner1  
       2024-03-18 16:24:21 +08:00
    话说 Meta 的 13B 的 chat 如何,有没有人搭建过,准备搞一个,如果效果不好就算了
    e1d4py0KiD6KgqkQ
        9
    e1d4py0KiD6KgqkQ  
       2024-03-18 18:17:57 +08:00 via Android
    我看有人把它下载了,几百 G
    DIMOJANG
        10
    DIMOJANG  
       2024-03-18 20:08:06 +08:00   2
    这下那些说苹果统一内存适合搞大模型的人说不出话了
    huluhulu
        11
    huluhulu  
       2024-03-18 20:50:47 +08:00
    Grok-1 之前测试成绩好像不太行,属于量大,但是不行的那种
    Chihaya0824
        12
    Chihaya0824  
    PRO
       2024-03-18 21:30:54 +08:00
    这个是一个 MoE 模型,然后也是 8 个 expert 然后同时激活两个的架构
    所以大概率并不是 OP 算的那样要整个丢进去,大概硬要求只是需要类似 90B 模型的大小的空间就行了
    苹果的统一内存还是很可能能用的,特别是这还是没有 Quantization 之前的大小
    所以老黄能不能下一代 90 系列变成 48G 显存秋梨膏
    RockShake
        13
    RockShake  
       2024-03-18 23:46:47 +08:00
    有人跑成功了么?
    kokutou
        14
    kokutou  
       2024-03-18 23:51:52 +08:00
    搜了下
    “它是 314B int8 参数,因此您需要 314GB 内来加载模型,再加上一些用于 K/V 缓存等内容”

    看来得撕裂者才行了...
    kokutou
        15
    kokutou  
       2024-03-18 23:52:54 +08:00
    @kokutou #14
    内存-->显存
    “一旦 llama.cpp 添加支持并且有人发布 4 位(或更低)量化权重,就可以在 CPU 上运行它。您将需要大约 256 GB RAM ,这对于普通用户来说比需要这么多 VRAM 更合理。”
    lovestudykid
        16
    lovestudykid  
       2024-03-19 01:03:19 +08:00   1
    @Bluecoda #3 Grok-1 用了更多的参数,还达不到 QWEN2 的性能,就让你 high 起来了?
    lovestudykid
        17
    lovestudykid  
       2024-03-19 01:04:26 +08:00   1
    这个模型就是马斯克放出来碰瓷的,用了更多的参数还比不上别家的性能,希望用开源道德绑架其他领先的厂商,逼人家也开源。
    mumbler
        18
    mumbler  
       2024-03-19 02:14:39 +08:00
    这个模型最大价值是用来蒸馏数据,毕竟用了 twitter 全部数据训练,这是其他大模型没有的语料
    coolair
        19
    coolair  
       2024-03-19 09:05:20 +08:00
    将近 300G ,下载都没那么大硬盘……
    wanwaneryide
        20
    wanwaneryide  
       2024-03-19 09:21:35 +08:00
    @coolair 300G 的硬盘很难?又不是 300T
    QlanQ
        21
    QlanQ  
       2024-03-19 09:26:33 +08:00
    @wanwaneryide M1 256G 路过....
    coinbase
        22
    coinbase  
       2024-03-19 20:07:29 +08:00
    某些人的民族自卑情结也太过了吧。

    Grok 虽然堆的参数多,但是实际表现比得上国产 Qwen 吗?我 Grok 开了年费会员,就用了一两天就弃用了,难用的一匹,谁会去抄袭它?
    s4d
        23
    s4d  
       2024-03-20 20:53:37 +08:00
    让子弹飞一会儿
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5550 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 07:28 PVG 15:28 LAX 00:28 JFK 03:28
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86