MiniMax M3 是 428B 参数模型,在 NVIDIA 基础设施上推出,为企业 AI 提供长上下文推理和多模式工作流程。
MiniMax M3 是一种尖端的 4280 亿参数AI模型,现已在 NVIDIA 的加速基础设施上使用,包括其 Blackwell GPU。该模型由上海的 MiniMax 于 2026 年 6 月 1 日发布,旨在通过将长上下文推理、多模态功能和代理任务优化结合在一个系统中来简化企业人工智能工作流程。
MiniMax M3 的突出特点是能够在上下文中处理多达 100 万个代币,这是对大多数现有模型的大规模升级。这可以在不破坏上下文的情况下实现扩展的编码会话、复杂的法律文档分析或长格式视频理解。此外,该模型支持本机多模式输入(文本、图像和视频),从而消除了对单独管道的需求并降低了开发人员的复杂性。
架构进步:MiniMax稀疏注意力
M3 性能的核心是新的 MiniMax Sparse Attention (MSA) 架构。与传统的二次注意力机制不同,MSA 使用预过滤阶段仅关注相关上下文块,从而显着提高速度和效率。根据 MiniMax 的说法,对于 1M 代币上下文,这将计算成本降低到其前身 MiniMax M2 的 1/20。据报道,与旧的稀疏注意力实现相比,预填充速度快了 9 倍,而解码速度快了 15 倍。
该模型还可以从头开始对文本、图像和视频进行本地训练,无需进行训练后的多模态黑客攻击——这是前沿模型领域的一个关键区别。
企业部署和定制
MiniMax M3 可以使用流行的开源推理引擎(例如 NVIDIA TensorRT LLM、SGLang 和 vLLM)进行部署。 NVIDIA 已将该模型集成到其 Dynamo 分布式推理平台中,该平台通过跨 GPU 分离预填充和解码任务来增强长序列工作负载的性能。据报道,这种方法在 NVIDIA Blackwell 硬件上将 32k 输入长度序列的交互性提高了 4 倍。
对于那些希望定制 M3 的人来说,NVIDIA 的 NeMo 框架提供了强大的微调工具,包括支持高达 128k 令牌的序列长度。开发人员还可以使用该模型执行强化学习,以针对特定应用程序(例如基于代理的工作流程或文档解析)对其进行优化。
市场竞争地位
MiniMax M3 正在进入一个拥挤的人工智能模型市场,但旨在通过其技术能力和开放权重方法使自己脱颖而出。在编码基准测试中,MiniMax 在 SWE-Bench Pro 上得分为 59.0%,略胜于 GPT-5.5 (58.6%) 和 Gemini 3.1 Pro (54.2%)。虽然这些结果是公司报告的,但他们将 M3 定位为编码和多模式 AI 领域的领先竞争者。
至关重要的是,该模型在成本上低于许多闭源竞争对手,据报道,发布时的定价为每百万输入代币 0.60 美元。这种激进的定价策略针对部署大规模人工智能工作流程的成本敏感型企业。
下一步是什么?
开发人员可以通过 NVIDIA 的 GPU 加速 API 或从 Huging Face 下载模型权重,立即开始使用 MiniMax M3。凭借其开放式设计,该模型预计将在法律技术、自主系统和多模式内容生成等领域得到广泛采用。
虽然人工智能世界将密切关注以验证 MiniMax 在效率和基准方面的主张,但该模型的技术创新和成本结构使其成为寻求简化复杂工作流程的企业的一个令人信服的选择。
