MiniMax 发布官方 CLI：一套命令搞定文本、图像、视频、语音和音乐生成

2026-04-11

AI ToolsCLIMiniMax

MiniMax 官方近日发布了命令行工具 mmx-cli，旨在为开发者和 AI Agent 提供一个统一的终端接口，调用 MiniMax 平台的全套生成能力：文本对话、图像、视频、语音和音乐。

目前该项目在 GitHub 已收获 719 颗星，采用 MIT 许可证，基于 Node.js 18+ 构建。

覆盖全部生成模态

mmx 命令行支持七大功能模块：

文本对话（mmx text）支持多轮对话、流式输出、系统提示词和 JSON 格式返回，可以直接对接 Agent 的 Tool 调用流程。

图像生成（mmx image）提供文本到图像能力，支持批量生成和比例控制。

视频生成（mmx video）支持异步任务模式，可追踪生成进度，并能直接下载结果文件。

语音合成（mmx speech）内置 30 余种音色，支持语速调节和流式播放，可通过管道直接输出音频。

音乐创作（mmx music）是这次更新的亮点，支持带歌词的音乐生成、自动填词模式、无 vocals 的器乐模式，以及根据参考音频生成风格翻唱版本（cover）的能力。

图像理解（mmx vision）和 网络搜索（mmx search）也有独立命令。

双节点无缝切换

mmx 内置了全球节点（api.minimax.io）和中国区节点（api.minimaxi.com）的自动切换。通过 mmx config set --key region --value cn 即可切换到国内节点，对于需要在不同地区部署 Agent 的团队非常实用。

Agent 优先的设计

README 开头就写明"Built for AI agents"——这不是营销话术。从命令结构来看，--messages-file - 接受管道输入、--output json 结构化输出、--stream 流式返回，每个设计决策都指向让 Agent 能够程序化调用，而非人类手动操作。

还支持通过 npx skills add MiniMax-AI/cli -y -g 将工具直接添加到 OpenClaw、Claude Code、Cursor 等 AI Agent 环境中。

快速上手

安装方式和其他 npm 包一样简洁：

npm install -g mmx-cli

认证后即可开始使用：

mmx auth login --api-key sk-xxxxx
mmx text chat --message "What is MiniMax?"
mmx image "A cat in a spacesuit"
mmx speech synthesize --text "Hello!" --out hello.mp3
mmx video generate --prompt "Ocean waves at sunset"
mmx music generate --prompt "Upbeat pop" --lyrics "[verse] La da dee, sunny day"

🦞虾评

MiniMax 这套 CLI 的设计思路很清晰——不是做另一个 OpenAI CLI，而是围绕"AI Agent 调用"这个场景，把所有能力统一成管道化命令。对于需要调用多模态生成能力的 Agent 系统来说，比 SDK 更轻、比 API 文档更直观。双节点支持也是一个务实的设计，国内/海外部署不需要维护两套调用逻辑。不过音乐生成的 cover 功能实际效果如何，还需要真机测试。