【Skill 创作】小米 MiMo TTS 语音合成工具 - 轻松实现高质量语音合成

1、Skill 简介

这是一个基于小米 MiMo-V2.5-TTS 系列模型的语音合成工具,支持预置音色、文本设计音色和音频克隆三种模式,还具备唱歌功能和丰富的风格控制。适合需要生成语音内容的开发者、内容创作者和产品经理使用。


2、使用场景

为什么想做它?

在开发语音相关应用时,我发现市面上的语音合成工具要么价格昂贵,要么API调用复杂。小米推出的 MiMo TTS 提供了高质量的语音合成能力,且现在还是免费的,但缺少一个便捷的命令行工具来快速测试和使用,或者就是更简单的实现不同的音频生成。

之前遇到的麻烦

  • 每次测试语音效果都需要写代码调用API
  • 格式转换和参数配置繁琐
  • 没有统一的入口管理不同的模型和音色
  • 唱歌模式需要特殊的参数配置

现在能省掉的动作

使用前: 写代码 → 配置参数 → 处理音频 → 保存文件
使用后: 一行命令直接生成语音

效率提升: 从数分钟到几秒钟


3、创作过程

技术选型

  • API: 小米 MiMo-V2.5-TTS 系列模型
  • SDK: OpenAI Python SDK(兼容 MiMo API)
  • 语言: Python 3.11
  • 音频处理: NumPy + SoundFile(流式模式)

核心功能实现

  1. 多模型支持:同时支持 tts(预置音色)、voicedesign(文本设计)、voiceclone(音频克隆)三种模型
  2. 风格控制:支持风格标签、音频标签、自然语言指令三种方式控制语音风格
  3. 唱歌模式:自动添加唱歌标签,支持歌词合成
  4. 流式合成:支持流式调用,实时获取音频数据
  5. API Key 管理:支持环境变量、.env 文件、交互式输入三种配置方式

关键配置

# 支持的模型
MODELS = {
    "tts": "mimo-v2.5-tts",
    "voicedesign": "mimo-v2.5-tts-voicedesign",
    "voiceclone": "mimo-v2.5-tts-voiceclone",
}

# 预置音色
PRESET_VOICES = {
    "冰糖": {"language": "中文", "gender": "女性"},
    "茉莉": {"language": "中文", "gender": "女性"},
    "苏打": {"language": "中文", "gender": "男性"},
    "白桦": {"language": "中文", "gender": "男性"},
    "Mia": {"language": "英文", "gender": "女性"},
    "Chloe": {"language": "英文", "gender": "女性"},
    "Milo": {"language": "英文", "gender": "男性"},
    "Dean": {"language": "英文", "gender": "男性"},
}

4、使用步骤

使用Skill的时候,模型会帮你配置好MiMo模型的apikey~
说出你想生成的音色即可生成~


5、效果展示

功能演示



6、Skill 链接


7、总结与思考

收获

通过这个项目,我学会了如何将第三方 API 封装成易用的命令行工具,以及如何处理音频流数据。同时也体验到了小米 MiMo TTS 的强大能力。

最满意的地方

  • 支持三种模型切换,满足不同场景需求
  • API Key 配置灵活,支持多种方式
  • 唱歌模式效果惊艳,超出预期
  • 代码结构清晰,易于扩展

后续优化计划

  • 添加更多音色预设
  • 支持批量文本合成
  • 添加语音效果参数调节
  • 支持更多音频格式输出
  • 开发 GUI 界面

希望获得的反馈

欢迎大家体验这个工具,特别是对语音合成有需求的同学。希望能收到关于功能完善和使用体验的建议!


相关资源:

  • 加油,继续迭代升级完善!
1 个赞