跳到主要内容

MiniMax M3

概述

MiniMax M3 是 MiniMax M 系列的新一代大语言模型。该模型引入 MiniMax Sparse Attention（MSA），这是一种次二次复杂度的注意力机制，旨在面向百万级 token 上下文场景提升推理效率，同时保持与 M2 系列相近的输出质量。具体可用性请以 B.AI 模型目录和平台展示为准。

核心特性

MiniMax Sparse Attention（MSA）：采用基于 GQA 的两阶段稀疏注意力架构。轻量索引分支负责选择相关 KV block，稀疏分支只对被选中的 block 计算注意力，从而降低注意力计算成本。
百万级上下文：面向 1M token 上下文场景设计，预览资料显示其在长上下文下的解码和 prefill 效率相比 M2 系列有明显提升。
多模态支持：图像输入能力取决于平台上线节奏和模型配置，可在支持时扩展 M 系列的文本之外工作流。
Agent 与办公场景优化：面向文档理解、表格处理、演示文稿生成和企业级 Agent 工作流优化。

适用场景

超长上下文处理：多文档分析、长对话历史理解、大型代码库理解。
AI Agent 部署：结合工具调用、推理和长上下文状态的自主任务执行。
办公自动化：文档、表格和演示文稿的智能处理与生成。

能力与限制

能力维度	说明
推理能力	面向前沿级推理和 Agent 工作流设计；最终基准表现可能随发布版本变化
创作能力	未标明
多模态能力	文本工作流；图像输入能力取决于平台上线节奏和模型配置
响应速度	面向比 M2 系列更高效的长上下文 prefill 和解码设计
上下文窗口	1,000,000 tokens
最大输出	未标明
工具调用	面向函数调用和 Agent 工作流支持设计
多语言能力	未标明

已知限制

最终可用性、模型限制和基准成绩可能随上线过程变化。
预览资料中描述的部分能力可能取决于平台支持和模型配置。

积分消耗

模型名称	输入 (Credits/Token)	Cache Write (Credits/Token)	Cache Read (Credits/Token)	输出 (Credits/Token)	网页搜索（Credits/次）	计费说明
MiniMax M3	`0.60`	`0.75`	`0.12`	`2.40`	`-`	-

概述
核心特性
适用场景
能力与限制
- 已知限制
积分消耗