TTS应用场景及痛点
IndexTTS
B站自研的高性能语音合成引擎。能够将文字自然流畅地转换成语音。它在中文处理上特别出色,不仅能根据拼音自动纠正发音,还能通过标点精准控制语句停顿,有效解决了多音字和生僻字的读音问题。IndexTTS使用了大量中英文数据进行训练,累计超过3万小时,保证了生成语音的真实感和音色多样性。
技术原理
IndexTTS2 到底解决了什么痛点?——它让自回归 TTS 第一次既能 精确控制时长,又能 零样本复刻情绪,且一句话就能驱动。
混合建模方法:在中文场景下,IndexTTS 采用字符与拼音混合建模的方式。通过结合汉字和拼音,系统能快速纠正多音字和长尾字符的发音错误,提高语音合成的准确性和可控性。
语音编码与解码优化:IndexTTS 引入了基于 Conformer 的条件编码器和 BigVGAN2 语音解码器。Conformer 编码器能够更好地捕捉语音的音色特征,BigVGAN2 解码器则提升了音质和音色相似性。
零样本语音克隆:IndexTTS 在零样本语音克隆方面表现出色,能在没有目标语音样本的情况下生成高质量的语音。扬声器相似性(SS)高达 0.776,MOS 评分达到 4.01,远超现有系统。
高效的训练与推理:系统经过数万小时的数据训练,训练过程简单且稳定,推理速度快。与 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等系统相比,IndexTTS 在自然度、内容一致性和零样本语音克隆方面表现出色。
架构总览

核心模块
IndexTTS2由三个核心模块组成:
Text-to-Semantic(T2S)模块
基于Transformer的自回归结构,负责将输入文本、音色提示、风格提示以及可选的目标语音token数量转换为语义token序列。
引入了时间编码机制和情感控制机制,支持通过指定语音token数量实现毫秒级时长控制,并能从风格提示中提取情绪特征。
Semantic-to-Mel(S2M)模块
采用非自回归结构,将T2S模块生成的语义token和音色提示作为输入,预测出梅尔频谱图。
引入GPT模型的潜在表示以增强强烈情绪下的语音清晰度。
BigVGANv2声码器
将S2M模块输出的梅尔频谱图转换为高质量的语音波形,保证输出音频的自然度与细节丰富度。
关键技术特性
情感与音色解耦:通过梯度反转层(GRL)等技术,将音色特征与情感特征从语义表示中分离,实现独立调控。
多模态情感输入:支持情感参考音频、情感描述文本或情感向量等多种输入方式,提升情感表达的灵活性。
精确时长控制:在自回归架构中首次引入时间编码,实现语音时长的精准控制,满足音视频同步需求。
主要创新点:
提出自回归TTS模型的时长自适应方案。IndexTTS2是首个将精确时长控制与自然时长生成结合的自回归零样本TTS模型,方法可扩展至任意自回归大模型。
情感与说话人特征从提示中解耦,设计特征融合策略,在高情感表达下保持语义流畅与发音清晰,并开发了基于自然语言描述的情感控制工具。
针对高表达性语音数据缺乏,提出高效训练策略,显著提升零样本TTS情感表达至SOTA水平。
代码与预训练权重将公开,促进后续研究与应用。
环境配置
在仓库中启用Git-LFS:
git lfs install下载代码:
git clone https://github.com/index-tts/index-tts.git && cd index-tts
git lfs pull # 下载大文件安装 uv 包管理器。 必须 使用uv保证依赖环境可靠。
快速安装方法:
uv安装方式多样,详见官网。也可快速安装:
pip install -U uv本文档仅支持uv安装。其他工具如conda/pip无法保证依赖正确,可能导致偶发bug、报错、GPU加速失效等问题。
uv比pip快115倍,强烈推荐。
安装依赖:
使用uv安装依赖时,会创建虚拟环境,将所有依赖安装到.venv目录:
uv sync --all-extras如中国大陆地区用户下载缓慢,可选用国内镜像:
uv sync --all-extras --default-index "https://mirrors.aliyun.com/pypi/simple"
uv sync --all-extras --default-index "https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"可选功能:
--all-extras:安装全部可选功能。可去除自定义。--extra webui:安装WebUI支持(推荐)。--extra deepspeed:安装DeepSpeed加速。
Windows注意: DeepSpeed在部分Windows环境较难安装,可去除--all-extras。
Linux/Windows注意: 如遇CUDA相关报错,请确保已安装NVIDIA CUDA Toolkit 12.8及以上。
下载模型
HuggingFace下载:
uv tool install "huggingface-hub[cli,hf_xet]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpointsModelScope下载:
uv tool install "modelscope"
modelscope download --model IndexTeam/IndexTTS-2 --local_dir checkpoints
可运行脚本检测机器是否有GPU,以及是否安装了GPU版本的PyTorch。(如PyTorch版本不对,可能使用CPU启动,推理会非常慢)
uv run tools/gpu_check.py
IndexTTS2快速体验
🌐 Web演示
uv run webui.py
浏览器访问 http://127.0.0.1:7860 查看演示。
可通过命令行参数开启FP16推理(降低显存占用)、DeepSpeed加速、CUDA内核编译加速等。可运行以下命令查看所有选项:
uv run webui.py -h可以愉快的使用了:

参考
IndexTTS:
Github仓库:https://github.com/index-tts/index-tts
arXiv技术论文:https://arxiv.org/pdf/2502.05512
IndexTTS2:
项目官网:https://index-tts.github.io/index-tts2.github.io/
HuggingFace模型库:https://huggingface.co/IndexTeam/IndexTTS-2
arXiv技术论文:https://arxiv.org/pdf/2506.21619
模型下载
HuggingFace:IndexTTS-2、IndexTTS-1.5、IndexTTS
ModelScope:IndexTTS-2、IndexTTS-1.5、IndexTTS
评论