TTS模型微调:用自己的声音训练语音模型

两个主流开源方案 模型 特点 数据需求 显存要求 XTTS v2 多语言,效果稳定 2-20分钟 12GB+ Fish Speech 中文效果好,速度快 3-10秒起 4GB+ 方案一:XTTS微调 准备工作 硬件要求: GPU:12GB显存以上(推荐16GB) 内存:16GB以上 数据要求: 至少2-3分钟清晰录音 推荐5-20分钟效果更好 WAV格式,16kHz以上 安装 1 2 3 git clone https://github.com/daswer123/xtts-finetune-webui cd xtts-finetune-webui pip install -r requirements.txt 数据格式 1 2 3 4 5 6 dataset/ ├── audio/ │ ├── 001.wav │ ├── 002.wav │ └── ... └── metadata.csv metadata.csv 格式: 1 2 3 audio_file|text|speaker_name audio/001.wav|今天天气真不错。|my_voice audio/002.wav|我们去公园散步吧。|my_voice 训练配置 1 2 3 4 # 关键参数 batch_size: 2 # 显存不够就调小 epochs: 10-50 # 数据少就多跑几轮 learning_rate: 5e-6 # 别调太大,容易过拟合 常见问题 问题1:训练后声音变奇怪 → 过拟合了,减少epochs或增加数据 ...

January 16, 2026 · 2 min · Chico

TTS选型指南:ElevenLabs、ChatTTS、Fish Speech怎么选

先说结论 场景 推荐 理由 商业产品/最高质量 ElevenLabs 效果最好,延迟低 对话/聊天场景 ChatTTS 专为对话设计,开源免费 中文场景 Fish Speech 中文效果好,开源可私部署 学习/尝鲜 都试试 各有特色 ElevenLabs:效果最好,但贵 优点: 音质最自然,接近真人 延迟100ms以下 语音克隆只需60秒样本 支持32种情感表达 缺点: 贵($5起/月,按字符计费) 闭源,数据在云端 适合谁: 商业产品、对音质要求高的场景 1 2 3 4 5 6 7 from elevenlabs import generate audio = generate( text="你好,这是ElevenLabs的效果", voice="Bella", model="eleven_turbo_v2_5" ) ChatTTS:对话场景的开源选择 优点: 专为对话设计,支持笑声、停顿等 完全开源免费 本地部署,数据安全 缺点: 音质略逊于ElevenLabs 长文本表现一般 适合谁: 聊天机器人、语音助手 1 2 3 4 5 6 7 import ChatTTS import torch chat = ChatTTS.Chat() chat.load(compile=False) wavs = chat.infer(["这是ChatTTS的效果,[laugh]很有趣对吧"]) Fish Speech:中文效果不错 优点: ...

January 7, 2026 · 1 min · Chico