# MiniMax Token Plan多模态模型Hermes技能集成方案

> 该项目提供了MiniMax Token Plan多模态模型的Hermes/Codex技能集成，支持文本转语音、文生图、文生视频、图生视频、音乐生成、搜索和视觉理解等功能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-05T08:53:47.000Z
- 最近活动: 2026-05-05T09:24:46.716Z
- 热度: 159.5
- 关键词: MiniMax, 多模态, Hermes, 文生视频, 文生图, 文本转语音, 音乐生成, AI技能
- 页面链接: https://www.zingnex.cn/forum/thread/minimax-token-planhermes
- Canonical: https://www.zingnex.cn/forum/thread/minimax-token-planhermes
- Markdown 来源: ingested_event

---

# MiniMax Token Plan多模态模型Hermes技能集成方案

## 项目概述

随着多模态大模型技术的快速发展，开发者越来越需要便捷的工具来集成文本、图像、音频、视频等多种模态的AI能力。MiniMax作为国内领先的大模型厂商，推出了Token Plan系列多模态模型，涵盖文本转语音、图像生成、视频生成、音乐创作等多个领域。

本项目是一个开源的Hermes/Codex技能（Skill），为开发者提供了一套完整的MiniMax Token Plan模型集成方案，通过简单的命令行工具即可调用丰富的多模态能力。

## 支持的模型与功能

该技能集成了MiniMax Token Plan的多个核心模型：

### 文本转语音（TTS）
- **Text to Speech HD**：高质量文本转语音

### 图像生成
- **image-01**：文生图模型

### 视频生成
- **Hailuo-2.3-768P 6s**：标准质量文生视频
- **Hailuo-2.3-Fast-768P 6s**：快速生成版本

### 音乐生成
- **music-2.5**：音乐生成模型
- **music-2.6**：最新版本音乐生成
- **music-cover**：音乐翻唱功能
- **lyrics_generation**：歌词生成

### 其他能力
- **coding-plan-vlm**：视觉语言模型
- **coding-plan-search**：搜索增强功能

## 安装与配置

### 技能安装

将技能目录复制到Hermes技能目录：

```bash
mkdir -p ~/.hermes/skills
cp -R minimax-token-plan ~/.hermes/skills/minimax-token-plan
```

如果Hermes使用其他技能目录，请相应调整路径。

### API密钥配置

设置MiniMax Token Plan API密钥：

```bash
export MINMAX_TOKEN_PLAN_KEY="your_api_key"
```

为持久化配置（zsh）：

```bash
echo 'export MINMAX_TOKEN_PLAN_KEY="your_api_key"' >> ~/.zshrc
source ~/.zshrc
```

系统支持以下环境变量名作为备选：
- `MINMAX_TOKEN_PLAN_KEY`（推荐）
- `MINIMAX_TOKEN_PLAN_KEY`
- `MINIMAX_API_KEY`
- `MINIMAX_CODE_PLAN_KEY`
- `MINIMAX_CODING_API_KEY`

验证配置：

```bash
test -n "$MINMAX_TOKEN_PLAN_KEY" && echo "MiniMax key configured" || echo "Missing MINMAX_TOKEN_PLAN_KEY"
```

## 使用指南

### 验证安装

```bash
node minimax-token-plan/scripts/minimax-token-plan.mjs help
```

### 快速测试

```bash
# 低成本实时检查
node minimax-token-plan/scripts/minimax-token-plan.mjs search --query MiniMax --count 1
```

### 各功能使用示例

**文本转语音：**

```bash
node minimax-token-plan/scripts/minimax-token-plan.mjs tts \
  --text "MiniMax test." \
  --out speech.mp3
```

**图像生成：**

```bash
node minimax-token-plan/scripts/minimax-token-plan.mjs image \
  --prompt "a tiny blue cube on a white table" \
  --out-dir images
```

> 注意：图像和视频生成会自动追加无文本约束，避免出现乱码字符。

**文生视频（异步任务）：**

```bash
# 提交任务
node minimax-token-plan/scripts/minimax-token-plan.mjs video-t2v \
  --prompt "A tiny robot waters a plant [固定]" \
  --model MiniMax-Hailuo-2.3 \
  --duration 6 \
  --resolution 768P

# 查询任务状态
node minimax-token-plan/scripts/minimax-token-plan.mjs video-query --task-id TASK_ID

# 下载视频
node minimax-token-plan/scripts/minimax-token-plan.mjs video-download \
  --file-id FILE_ID \
  --out video.mp4
```

**图生视频：**

```bash
node minimax-token-plan/scripts/minimax-token-plan.mjs video-i2v \
  --prompt "The image slowly comes alive [固定]" \
  --image-file images/image-1.jpeg \
  --model MiniMax-Hailuo-2.3-Fast \
  --duration 6 \
  --resolution 768P
```

**音乐生成：**

```bash
# 使用默认music-2.6
node minimax-token-plan/scripts/minimax-token-plan.mjs music \
  --prompt "Pop, cheerful, short jingle" \
  --lyrics-file lyrics.txt \
  --out song.mp3

# 显式指定music-2.5
node minimax-token-plan/scripts/minimax-token-plan.mjs music \
  --model music-2.5 \
  --prompt "Pop, cheerful, short jingle" \
  --lyrics-file lyrics.txt \
  --out song.mp3
```

**搜索功能：**

```bash
node minimax-token-plan/scripts/minimax-token-plan.mjs search \
  --query "MiniMax API docs" \
  --count 5
```

**视觉理解（VLM）：**

```bash
node minimax-token-plan/scripts/minimax-token-plan.mjs vlm \
  --prompt "Describe this image" \
  --image-file images/image-1.jpeg
```

## 技术细节

### 无文本约束

对于图像和视频生成，系统会自动追加以下约束，避免生成乱码字符：

```
No text, no letters, no numbers, no captions, no subtitles, no logo, no watermark, no readable symbols or characters anywhere in the image or video.
```

如需在生成的视觉内容中包含可读文本，需显式添加 `--allow-text true` 参数。

### 项目结构

```
minimax-token-plan/
├── SKILL.md                    # 模型路由和使用说明
├── scripts/
│   └── minimax-token-plan.mjs  # Node.js API调用助手
└── agents/
    └── openai.yaml             # 技能元数据
```

## 应用场景

该技能适用于多种创意和开发场景：

1. **内容创作**：快速生成配音、背景音乐、配图和短视频
2. **原型设计**：为产品原型生成视觉素材
3. **自动化工作流**：在CI/CD流程中集成媒体生成
4. **多模态AI应用**：构建集成文本、图像、音频、视频的复合应用

## 结语

MiniMax Token Plan技能为开发者提供了一个简洁高效的多模态AI能力集成方案。通过标准化的Hermes技能接口，开发者可以快速将文本转语音、图像生成、视频创作等能力整合到自己的应用和工作流中，大幅降低多模态AI技术的应用门槛。