Fish Speech

两个主流开源方案模型特点数据需求显存要求 XTTS v2 多语言，效果稳定 2-20分钟 12GB+ Fish Speech 中文效果好，速度快 3-10秒起 4GB+ 方案一：XTTS微调准备工作硬件要求： GPU：12GB显存以上（推荐16GB）内存：16GB以上数据要求：至少2-3分钟清晰录音推荐5-20分钟效果更好 WAV格式，16kHz以上安装 1 2 3 git clone https://github.com/daswer123/xtts-finetune-webui cd xtts-finetune-webui pip install -r requirements.txt 数据格式 1 2 3 4 5 6 dataset/ ├── audio/ │ ├── 001.wav │ ├── 002.wav │ └── ... └── metadata.csv metadata.csv 格式： 1 2 3 audio_file|text|speaker_name audio/001.wav|今天天气真不错。|my_voice audio/002.wav|我们去公园散步吧。|my_voice 训练配置 1 2 3 4 # 关键参数 batch_size: 2 # 显存不够就调小 epochs: 10-50 # 数据少就多跑几轮 learning_rate: 5e-6 # 别调太大，容易过拟合常见问题问题1：训练后声音变奇怪 → 过拟合了，减少epochs或增加数据 ...

先说结论场景推荐理由商业产品/最高质量 ElevenLabs 效果最好，延迟低对话/聊天场景 ChatTTS 专为对话设计，开源免费中文场景 Fish Speech 中文效果好，开源可私部署学习/尝鲜都试试各有特色 ElevenLabs：效果最好，但贵优点：音质最自然，接近真人延迟100ms以下语音克隆只需60秒样本支持32种情感表达缺点：贵（$5起/月，按字符计费）闭源，数据在云端适合谁：商业产品、对音质要求高的场景 1 2 3 4 5 6 7 from elevenlabs import generate audio = generate( text="你好，这是ElevenLabs的效果", voice="Bella", model="eleven_turbo_v2_5" ) ChatTTS：对话场景的开源选择优点：专为对话设计，支持笑声、停顿等完全开源免费本地部署，数据安全缺点：音质略逊于ElevenLabs 长文本表现一般适合谁：聊天机器人、语音助手 1 2 3 4 5 6 7 import ChatTTS import torch chat = ChatTTS.Chat() chat.load(compile=False) wavs = chat.infer(["这是ChatTTS的效果，[laugh]很有趣对吧"]) Fish Speech：中文效果不错优点： ...

Fish Speech

TTS模型微调：用自己的声音训练语音模型

TTS选型指南：ElevenLabs、ChatTTS、Fish Speech怎么选