【Skill 创作】小米 MiMo TTS 语音合成工具 - 轻松实现高质量语音合成

世博 · 2026 年5 月 22 日 15:37

1、Skill 简介

这是一个基于小米 MiMo-V2.5-TTS 系列模型的语音合成工具，支持预置音色、文本设计音色和音频克隆三种模式，还具备唱歌功能和丰富的风格控制。适合需要生成语音内容的开发者、内容创作者和产品经理使用。

2、使用场景

为什么想做它？

在开发语音相关应用时，我发现市面上的语音合成工具要么价格昂贵，要么API调用复杂。小米推出的 MiMo TTS 提供了高质量的语音合成能力，且现在还是免费的，但缺少一个便捷的命令行工具来快速测试和使用，或者就是更简单的实现不同的音频生成。

之前遇到的麻烦

每次测试语音效果都需要写代码调用API
格式转换和参数配置繁琐
没有统一的入口管理不同的模型和音色
唱歌模式需要特殊的参数配置

现在能省掉的动作

使用前： 写代码 → 配置参数 → 处理音频 → 保存文件
使用后： 一行命令直接生成语音

效率提升： 从数分钟到几秒钟

3、创作过程

技术选型

API： 小米 MiMo-V2.5-TTS 系列模型
SDK： OpenAI Python SDK（兼容 MiMo API）
语言： Python 3.11
音频处理： NumPy + SoundFile（流式模式）

核心功能实现

多模型支持：同时支持 tts（预置音色）、voicedesign（文本设计）、voiceclone（音频克隆）三种模型
风格控制：支持风格标签、音频标签、自然语言指令三种方式控制语音风格
唱歌模式：自动添加唱歌标签，支持歌词合成
流式合成：支持流式调用，实时获取音频数据
API Key 管理：支持环境变量、.env 文件、交互式输入三种配置方式

关键配置

# 支持的模型
MODELS = {
    "tts": "mimo-v2.5-tts",
    "voicedesign": "mimo-v2.5-tts-voicedesign",
    "voiceclone": "mimo-v2.5-tts-voiceclone",
}

# 预置音色
PRESET_VOICES = {
    "冰糖": {"language": "中文", "gender": "女性"},
    "茉莉": {"language": "中文", "gender": "女性"},
    "苏打": {"language": "中文", "gender": "男性"},
    "白桦": {"language": "中文", "gender": "男性"},
    "Mia": {"language": "英文", "gender": "女性"},
    "Chloe": {"language": "英文", "gender": "女性"},
    "Milo": {"language": "英文", "gender": "男性"},
    "Dean": {"language": "英文", "gender": "男性"},
}