LLAMA 3 405b 要来了, 性能并不乐观, 但开源太嗯了

应该是这周

目前关于的rumors:
405B parameters
支持vision (Embedding size 16384)
Vocab size 128256
118 layers
128K Context Token

Meta发出的性能图


MMLU
GPT 4o是 88.7
4 Turob是86.5
3.5 Sonnet也是 88.7
Gemini 1.5 Pro 是 85.9
也就是说这个LLAMA 405B比Gemini要差一些 (Instruct的那个不需要看, Instruct就是有审核了 )
当然了这个data是训练中的
与最后的结果可能不一样
反正这周就要发布了
开源模型肯定是很嗯的, 审核可以直接bypass 对roleplay和nsfw十分友好
再加上meta用facebook来训练模型, 对话能力也是很natural的那种

2 个赞

wow

对nsfw的部分感兴趣,不知道到时候性价比如何

1 个赞

这都 4 月的 checkpoint 了…然后我不是很明白为什么不能拿 Instruct 比,你这里列的其他模型也是 Instruct 的数据啊(而且也有审查…),就因为有审查就非要拿 Base 比?这公平吗

4 个赞

冲冲冲,打爆gpt,claude

来了来了

Meta是否公开提到过405b模型的训练语料来自于Facebook呢?

哈哈

From #develop:ai to 资源荟萃