TTS模型微调:用自己的声音训练语音模型
两个主流开源方案 模型 特点 数据需求 显存要求 XTTS v2 多语言,效果稳定 2-20分钟 12GB+ Fish Speech 中文效果好,速度快 3-10秒起 4GB+ 方案一:XTTS微调 准备工作 硬件要求: GPU:12GB显存以上(推荐16GB) 内存:16GB以上 数据要求: 至少2-3分钟清晰录音 推荐5-20分钟效果更好 WAV格式,16kHz以上 安装 1 2 3 git clone https://github.com/daswer123/xtts-finetune-webui cd xtts-finetune-webui pip install -r requirements.txt 数据格式 1 2 3 4 5 6 dataset/ ├── audio/ │ ├── 001.wav │ ├── 002.wav │ └── ... └── metadata.csv metadata.csv 格式: 1 2 3 audio_file|text|speaker_name audio/001.wav|今天天气真不错。|my_voice audio/002.wav|我们去公园散步吧。|my_voice 训练配置 1 2 3 4 # 关键参数 batch_size: 2 # 显存不够就调小 epochs: 10-50 # 数据少就多跑几轮 learning_rate: 5e-6 # 别调太大,容易过拟合 常见问题 问题1:训练后声音变奇怪 → 过拟合了,减少epochs或增加数据 ...