速报:MiniMax M1发布,1M上下文,456B的开源深度思考大模型

之前一直传闻Minimax正在憋大招,现在,这个“大招”终于来了。

以下是官方介绍:MiniMax-M1是全球首款开源权重的大规模混合注意力推理模型。MiniMax-M1 采用混合专家模型 (MoE) 架构,并结合了闪电注意力机制。该模型基于之前的 MiniMax-Text-01 模型开发,总共包含 4560 亿参数,每个词元 (token) 激活 459 亿参数,和 MiniMax-Text-01 一致。
M1 模型原生支持 100 万词元的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制能够高效扩展测试时的计算。例如,与 DeepSeek R1 相比,在生成长度为 10 万词元时,M1 消耗的浮点运算次数 (FLOPs) 仅为其 25%。这些特性使 M1 特别适用于需要处理长输入并进行深度思考的复杂任务。
官方选了一些比较好看的榜来画图,实际评测数据中也有不少榜单打不过r1和qwen3。

目前模型已经上传hf,根据思考预算分为40k和80k两个模型。

官网也已上线,大家可去官网免费体验。

API 已出,官网API定价:
输入0.8元/百万token, 输出8元/百万token(输入长度0-32k)
输入1.2元/百万token, 输出16元/百万token(输入长度32k-128k)
输入2.4元/百万token, 输出24元/百万token(输入长度128k+)
批量推理五折。
这一价格略高于豆包1.6,略低于deepseek R1

14 Likes

等一手评测

@天气卡

不知道RP怎么样

等个免费渠道

等各位佬友评估结果

有没有评测报告蹲一手

蹲一手评测,期待硅基可以上这个

看这个跑分

短上下文不如r1

长上下文和gemini2.5pro一个水平

感觉值得一试

1 Like

期待一手评测

只看成绩的话和qwen3 235b差不多,不过1m上下文和工具调用能力还算是有竞争力

就这个上下文就相当有用了

等一手评测看看

100万上下文还是很有用的,可惜不知道占显存多大

1 Like

我记得他家模型中文写作能力特别强,不知这新模型怎么样

报告中的图


感觉就和老版R1差不多

期待评测,开源的话chutes应该会上免费渠道

厉害喇佬