马斯克要开源的Grok,是个什么水平?有体验过的佬吗

马斯克在最后一刻如约开源了Grok,模型有314B大小,这是第一个如此规模的开源模型。

国内的公司又能起飞一波了,不过模型没有经过微调,对各家的训练技术也有一定的考验。

模型快速介绍:

基础信息: 模型规模为314B,由8个专家系统组成(其中2个处于活跃状态)。 活跃参数总数达到86B。该模型采用旋转嵌入(Rotary Embeddings)技术#rope,而非传统的固定位置嵌入方式。

这个版本的Grok-1是我们在2023年10月完成预训练阶段时的初始模型版本。

Apache 2.0这一开源许可证下发布这个模型的权重和架构,任何人都可以在该许可证的规则下使用这些资源。

它是一个拥有3140亿参数的混合专家模型,其中在处理每个数据单元(Token)时,大约有25%的模型参数是活跃的,这意味着模型可以更高效地运行。

这个模型是xAI团队使用定制的训练架构,在JAX和Rust的基础上从头开始搭建并训练出的成果。

模型架构介绍:

分词器的词汇量为131,072(与GPT-4相似),即2的17次方。 嵌入向量的大小为6,144(48*128)。
模型包含64层的Transformer结构(这是相当高的层数)。 每层包含一个解码层,由多头注意力模块(Multihead Attention Block)和密集前馈块(Denseblock)构成。 键值对(Key-Value)的大小为128。

在多头注意力模块中: 用于查询的头数为48, 而用于键/值(Key/Value, KV)的头数为8, 其中KV的大小为128。
密集前馈块(Dense Block)的特点包括: 扩展因子为8, 隐藏层的大小为32,768。
每个Token会从8个专家中选出2个进行处理。

旋转位置嵌入(Rotary Positional Embeddings)的大小为6,144,这与模型的输入嵌入尺寸相匹配。

模型可以处理的上下文长度为8,192个Token。 计算精度为bf16。 为了运行整个模型,你可能需要5台H100 GPU。
介绍来自:
https://twitter.com/op7418/status/1769531325781033007

3 Likes

春天来了 :see_no_evil:
https://github.com/xai-org/grok

2 Likes

一开源,万物生

1 Like

不知道到有没有值得借鉴的

1 Like

半天7.6k的star,太猛了

1 Like

c一个

1 Like

国内又可以弯道超车了(

1 Like

冲冲冲

1 Like

这种的个人没办法用的,就等其他的公司测试了。

个人哪来那么大的硬盘保存这个

1 Like

太猛了,已经8K star了

1 Like

按照这个势头,今天得说10k+ star,没准奔20+去了

1 Like

https://github.com/xai-org/grok-1
和这个链接的有什么区别。这个代码时间看上去比较新。

这个大模型不是一般人能随便跑起来的,官方也有提示需要足够的GPU和内存的机器才能运行,而且还不是一般的高,如果是8bit的量的话,最低就需要8块H100显卡,光一张8g显存H100就要30多万rmb

1 Like

没什么可期待 :joy:

搞不起。。。。。。

开源下载280G,需要购买显卡花销300多才能用。“穷”就别折腾了

2 Likes

那政,黄,不得…

1 Like

初步估算,没有300W是没法搞下来的,这还只是跑起来。所以,有没有另外一种可能,轻量化部署。很早之前不敢想的显卡内存,现在照样不也实现了。会不会是一个趋势,技术本身的迭代也确实存在这样的可能性。

1 Like

没用过不了解呢