MiniMax M3
MiniMax M3 是 MiniMax M 系列的新一代大语言模型。该模型引入 MiniMax Sparse Attention(MSA),这是一种次二次复杂度的注意力机制,旨在面向百万级 token 上下文场景提升推理效率,同时保持与 M2 系列相近的输出质量。具体可用性请以 B.AI 模型目录和平台展示为准。
核心特性
- MiniMax Sparse Attention(MSA):采用基于 GQA 的两阶段稀疏注意力架构。轻量索引分支负责选择相关 KV block,稀疏分支只对被选中的 block 计算注意力,从而降低注意力计算成本。
- 百万级上下文:面向 1M token 上下文场景设计,预览资料显示其在长上下文下的解码和 prefill 效率相比 M2 系列有明显提升。
- 多模态支持:图像输入能力取决于平台上线节奏和模型配置,可在支持时扩展 M 系列的文本之外工作流。
- Agent 与办公场景优化:面向文档理解、表格处理、演示文稿生成和企业级 Agent 工作流优化。
适用场景
- 超长上下文处理:多文档分析、长对话历史理解、大型代码库理解。
- AI Agent 部署:结合工具调用、推理和长上下文状态的自主任务执行。
- 办公自动化:文档、表格和演示文稿的智能处理与生成。
能力与限制
| 能力维度 | 说明 |
|---|
| 推理能力 | 面向前沿级推理和 Agent 工作流设计;最终基准表现可能随发布版本变化 |
| 创作能力 | 未标明 |
| 多模态能力 | 文本工作流;图像输入能力取决于平台上线节奏和模型配置 |
| 响应速度 | 面向比 M2 系列更高效的长上下文 prefill 和解码设计 |
| 上下文窗口 | 1,000,000 tokens |
| 最大输出 | 未标明 |
| 工具调用 | 面向函数调用和 Agent 工作流支持设计 |
| 多语言能力 | 未标明 |
已知限制
- 最终可用性、模型限制和基准成绩可能随上线过程变化。
- 预览资料中描述的部分能力可能取决于平台支持和模型配置。
积分消耗
| 模型名称 | 输入 (Credits/Token) | Cache Write (Credits/Token) | Cache Read (Credits/Token) | 输出 (Credits/Token) | 网页搜索(Credits/次) | 计费说明 |
|---|
| MiniMax M3 | 0.60 | 0.75 | 0.12 | 2.40 | - | - |