原始 BF16 版本体积高达 457GB,远超 128GB 内存。 但得益于 MoE(混合专家)架构(激活参数仅 10B),我们可以使用量化技术大幅缩减体积与内存占用,同时几乎不影响模型质量。 选择正确的量化方案是成功部署的关键。
| 项目 | 要求 |
|---|---|
| 硬件 | Mac Studio (Apple Silicon M1/M2/M3/M4 系列) |
| 统一内存 | 64GB 可运行部分量化版;96GB 舒适起点;128GB 适合 4-bit + 长上下文 |
| 操作系统 | macOS 15.0 (Sequoia) 或更高版本 |
| Python | 3.10 及以上版本 |
图形界面操作,类似应用商店,一键下载模型并对话,适合新手。
minimax/minimax-m2.7 或 MiniMax-M2.7。UD-IQ4_XS 版本(适合128GB内存并支持长上下文)。通过终端操作,灵活且高效,适合进阶用户。
参数说明:
-m 指定模型路径,*.gguf 自动加载所有分片。--ctx-size 196608 设置上下文长度上限(200K对应值)。--n-gpu-layers 999 尽可能将所有层加载到 GPU 以加速推理。若内存不足可适当减小。专为 Apple Silicon 优化的量化格式,体积压缩极致,速度最快。
然后运行 python run_m2.7.py。如需调整上下文长度,请查阅 mlx_lm 与 jang_tools 文档。
| 量化方案 | 模型大小 | 显存占用 | 性能参考 (M3 Ultra) | 说明 |
|---|---|---|---|---|
| JANGTQ | 56.5GB | 56.5GB | ~44 tok/s | 速度最快,MMLU 91.5%,质量极高。 |
| Unsloth 4-bit GGUF | 108GB | ~108GB | ~15 tok/s | 性能与显存平衡之选。M2 Ultra 可能降至 8-10 tok/s。 |
| Unsloth 8-bit GGUF | 243GB | 243GB | ❌ 不可用 | 需要 256GB 及以上内存,此方案与你的设备不兼容。 |
--ctx-size 的值(如 128000 或 65536)来缓解压力。
| 版本 | 大小 | 地址 |
|---|---|---|
| 官方原版 (BF16) | 457GB | MiniMaxAI/MiniMax-M2.7 |
| Unsloth GGUF 量化版 | 多种 | unsloth/MiniMax-M2.7-GGUF |
| JANGTQ 量化版 | 56.5GB | JANGQ-AI/MiniMax-M2.7-JANGTQ |
🚀 以上方案均可在你的 Mac Studio 128GB 上流畅运行,尽情体验 200K 超长上下文的强大能力。