首页 > 常用工具 > ChatTTS

ChatTTS

介绍同类推荐

ChatTTS：为日常对话设计的生成式语音模型

ChatTTS 是一个专为对话场景设计的文本转语音模型，特别适用于大型语言模型助手等应用。这个项目由 2noise 团队开发，旨在为研究人员和开发者提供一个强大而灵活的语音合成工具。

对话式 TTS：ChatTTS 针对对话任务进行了优化，能够生成自然且富有表现力的语音。它支持多说话人，有利于实现交互式对话。

精细控制：该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和语气词等。

更好的韵律：在韵律方面，ChatTTS 超越了大多数开源 TTS 模型。项目提供了预训练模型，以支持进一步的研究和开发。

目前，ChatTTS 支持英语和中文，未来还将支持更多语言。

ChatTTS 的主要模型是使用超过 10 万小时的中英文音频数据训练而成。在 HuggingFace 上开源的版本是一个经过 4 万小时预训练的模型，未经过 SFT（Supervised Fine-Tuning）。值得注意的是，发布的模型仅供学术用途。

用户可以通过多种方式开始使用 ChatTTS：

通过 Web UI 界面：执行 python examples/web/webui.py 启动 Web 界面。

通过命令行：运行 python examples/cmd/run.py "Your text 1." "Your text 2." 来生成语音。

通过 Python 代码：可以直接在 Python 中导入 ChatTTS 库并使用其功能。

ChatTTS 提供了多种高级功能，如：

从高斯分布中采样说话人

自定义推理参数（如温度、top_P、top_K 等）

句子级和词级的手动控制（如笑声、停顿等）

ChatTTS 团队计划在未来实现多情感控制，并开发 ChatTTS.cpp 版本。

尽管 ChatTTS 是一个强大的文本转语音系统，但开发团队强调了负责任和合乎道德地使用这项技术的重要性。为了限制 ChatTTS 的滥用，他们在 4 万小时模型的训练过程中添加了少量高频噪声，并尽可能使用 MP3 格式压缩音频质量，以防止恶意行为者可能将其用于犯罪目的。

ChatTTS 为对话场景中的语音合成提供了一个强大的解决方案。它不仅支持多语言和多说话人，还能实现细粒度的韵律控制。随着项目的不断发展，相信它将为更多的研究和应用提供有力支持。