1、Skill 简介
这是一个基于小米 MiMo-V2.5-TTS 系列模型的语音合成工具,支持预置音色、文本设计音色和音频克隆三种模式,还具备唱歌功能和丰富的风格控制。适合需要生成语音内容的开发者、内容创作者和产品经理使用。
2、使用场景
为什么想做它?
在开发语音相关应用时,我发现市面上的语音合成工具要么价格昂贵,要么API调用复杂。小米推出的 MiMo TTS 提供了高质量的语音合成能力,且现在还是免费的,但缺少一个便捷的命令行工具来快速测试和使用,或者就是更简单的实现不同的音频生成。
之前遇到的麻烦
- 每次测试语音效果都需要写代码调用API
- 格式转换和参数配置繁琐
- 没有统一的入口管理不同的模型和音色
- 唱歌模式需要特殊的参数配置
现在能省掉的动作
使用前: 写代码 → 配置参数 → 处理音频 → 保存文件
使用后: 一行命令直接生成语音
效率提升: 从数分钟到几秒钟
3、创作过程
技术选型
- API: 小米 MiMo-V2.5-TTS 系列模型
- SDK: OpenAI Python SDK(兼容 MiMo API)
- 语言: Python 3.11
- 音频处理: NumPy + SoundFile(流式模式)
核心功能实现
- 多模型支持:同时支持 tts(预置音色)、voicedesign(文本设计)、voiceclone(音频克隆)三种模型
- 风格控制:支持风格标签、音频标签、自然语言指令三种方式控制语音风格
- 唱歌模式:自动添加唱歌标签,支持歌词合成
- 流式合成:支持流式调用,实时获取音频数据
- API Key 管理:支持环境变量、.env 文件、交互式输入三种配置方式
关键配置
# 支持的模型
MODELS = {
"tts": "mimo-v2.5-tts",
"voicedesign": "mimo-v2.5-tts-voicedesign",
"voiceclone": "mimo-v2.5-tts-voiceclone",
}
# 预置音色
PRESET_VOICES = {
"冰糖": {"language": "中文", "gender": "女性"},
"茉莉": {"language": "中文", "gender": "女性"},
"苏打": {"language": "中文", "gender": "男性"},
"白桦": {"language": "中文", "gender": "男性"},
"Mia": {"language": "英文", "gender": "女性"},
"Chloe": {"language": "英文", "gender": "女性"},
"Milo": {"language": "英文", "gender": "男性"},
"Dean": {"language": "英文", "gender": "男性"},
}
4、使用步骤
使用Skill的时候,模型会帮你配置好MiMo模型的apikey~
说出你想生成的音色即可生成~
5、效果展示
功能演示
6、Skill 链接
- API 获取: https://platform.xiaomimimo.com
- Github链接: https://github.com/boshi-xixixi/xiaomi-tts
7、总结与思考
收获
通过这个项目,我学会了如何将第三方 API 封装成易用的命令行工具,以及如何处理音频流数据。同时也体验到了小米 MiMo TTS 的强大能力。
最满意的地方
- 支持三种模型切换,满足不同场景需求
- API Key 配置灵活,支持多种方式
- 唱歌模式效果惊艳,超出预期
- 代码结构清晰,易于扩展
后续优化计划
- 添加更多音色预设
- 支持批量文本合成
- 添加语音效果参数调节
- 支持更多音频格式输出
- 开发 GUI 界面
希望获得的反馈
欢迎大家体验这个工具,特别是对语音合成有需求的同学。希望能收到关于功能完善和使用体验的建议!
相关资源:
- 小米 MiMo 平台:https://platform.xiaomimimo.com
- 文档地址:https://docs.xiaomimimo.com

