TTS模型微调:用自己的声音训练语音模型

两个主流开源方案 模型 特点 数据需求 显存要求 XTTS v2 多语言,效果稳定 2-20分钟 12GB+ Fish Speech 中文效果好,速度快 3-10秒起 4GB+ 方案一:XTTS微调 准备工作 硬件要求: GPU:12GB显存以上(推荐16GB) 内存:16GB以上 数据要求: 至少2-3分钟清晰录音 推荐5-20分钟效果更好 WAV格式,16kHz以上 安装 1 2 3 git clone https://github.com/daswer123/xtts-finetune-webui cd xtts-finetune-webui pip install -r requirements.txt 数据格式 1 2 3 4 5 6 dataset/ ├── audio/ │ ├── 001.wav │ ├── 002.wav │ └── ... └── metadata.csv metadata.csv 格式: 1 2 3 audio_file|text|speaker_name audio/001.wav|今天天气真不错。|my_voice audio/002.wav|我们去公园散步吧。|my_voice 训练配置 1 2 3 4 # 关键参数 batch_size: 2 # 显存不够就调小 epochs: 10-50 # 数据少就多跑几轮 learning_rate: 5e-6 # 别调太大,容易过拟合 常见问题 问题1:训练后声音变奇怪 → 过拟合了,减少epochs或增加数据 ...

January 16, 2026 · 2 min · Chico

TTS数据准备:从录音到训练的完整流程

数据决定上限 TTS模型效果好不好,80%取决于数据质量。 常见问题: 录音有底噪 → 合成出来有杂音 音量不稳定 → 合成忽大忽小 断句不自然 → 合成节奏奇怪 录音要求 硬件 设备 推荐 预算 麦克风 电容麦(如AT2020) ¥500-1500 声卡 独立声卡或USB麦 ¥300-800 环境 安静房间+吸音棉 ¥100-300 录音参数 1 2 3 采样率: 48kHz(至少16kHz) 位深: 24-bit 格式: WAV(无损) 录音技巧 距离:麦克风离嘴15-20cm 音量:保持-12dB到-6dB之间 状态:正常语速,自然呼吸 时长:至少2小时(5-10小时效果更好) 数据清洗流程 graph LR A[原始音频] --> B[降噪] B --> C[音量标准化] C --> D[切分句子] D --> E[对齐文本] E --> F[质量检查] F --> G[训练数据] 1. 降噪 工具:Audacity(免费)、Adobe Podcast(在线) 1 2 # 使用ffmpeg + rnnoise降噪 ffmpeg -i input.wav -af "arnndn=m=rnnoise-models/bd.rnnn" output.wav ⚠️ 注意:过度降噪会导致声音失真,宁可保留少量底噪 ...

January 15, 2026 · 1 min · Chico

Voice Agent架构:从语音输入到智能响应

Voice Agent 是什么 一句话:能听会说的AI助手。 graph LR A[用户说话] --> B[ASR语音识别] B --> C[LLM理解+生成] C --> D[TTS语音合成] D --> E[播放给用户] 看起来简单,但要做好有三个核心挑战: 延迟 - 用户说完到AI回复,要控制在1-2秒内 打断 - 用户随时可以打断AI说话 自然度 - 不能像机器人一样僵硬 核心架构 方案一:串行流水线 1 用户说话 → [等说完] → ASR → LLM → TTS → 播放 优点:实现简单 缺点:延迟高(3-5秒) 适合:对延迟不敏感的场景(如语音留言) 方案二:流式处理 1 用户说话 → [边说边识别] → [边生成边合成] → [边合成边播放] 优点:延迟低(1-2秒) 缺点:实现复杂,需要处理中间状态 适合:实时对话场景 关键组件 1. ASR(语音识别) 方案 延迟 准确率 成本 Whisper API 1-2s 95%+ 按时长计费 Deepgram 200ms 90%+ 按时长计费 本地Whisper 500ms-2s 95%+ 需要GPU 实时识别关键: ...

January 14, 2026 · 2 min · Chico

声音克隆:60秒复制你的声音,然后呢?

先说个真事 朋友公司有人收到"老板"的语音消息,让转账50万。声音、语气都对,差点就转了。后来发现是AI克隆的——骗子从老板的抖音视频里扒了几十秒素材。 这就是现在声音克隆的水平:以假乱真。 60秒能干什么 用ElevenLabs举例: 1 2 3 4 5 6 7 8 9 10 11 12 13 from elevenlabs import clone, generate # 上传60秒录音 voice = clone( name="我的声音", files=["sample.mp3"] ) # 让它说任何话 audio = generate( text="这话我从没说过", voice=voice ) 就这么简单。效果好到专业人士都分辨不出。 能用来干什么 正经用途: 有声书制作(成本从10万降到1千) 虚拟主播(24小时不下播) 游戏NPC配音(1000个NPC,1000种声音) 帮失声的人"说话" 不正经用途: 诈骗(前面说的那种) 伪造录音 未经授权用别人的声音 怎么防骗 涉及转账,打电话确认。语音消息不算数。 设暗号。家人之间约定一个只有你们知道的词。 听细节。AI声音太"完美"——没有呼吸声、没有口水音、没有犹豫。 怎么玩 免费方案: Coqui TTS(开源),需要自己部署 付费方案: ElevenLabs,$11/月起,效果最好 录音技巧: 安静环境 正常语速 至少60秒,内容越丰富越好 配音演员会失业吗 低端活会被抢:有声书旁白、广告配音、游戏NPC。 ...

January 10, 2026 · 1 min · Chico

TTS选型指南:ElevenLabs、ChatTTS、Fish Speech怎么选

先说结论 场景 推荐 理由 商业产品/最高质量 ElevenLabs 效果最好,延迟低 对话/聊天场景 ChatTTS 专为对话设计,开源免费 中文场景 Fish Speech 中文效果好,开源可私部署 学习/尝鲜 都试试 各有特色 ElevenLabs:效果最好,但贵 优点: 音质最自然,接近真人 延迟100ms以下 语音克隆只需60秒样本 支持32种情感表达 缺点: 贵($5起/月,按字符计费) 闭源,数据在云端 适合谁: 商业产品、对音质要求高的场景 1 2 3 4 5 6 7 from elevenlabs import generate audio = generate( text="你好,这是ElevenLabs的效果", voice="Bella", model="eleven_turbo_v2_5" ) ChatTTS:对话场景的开源选择 优点: 专为对话设计,支持笑声、停顿等 完全开源免费 本地部署,数据安全 缺点: 音质略逊于ElevenLabs 长文本表现一般 适合谁: 聊天机器人、语音助手 1 2 3 4 5 6 7 import ChatTTS import torch chat = ChatTTS.Chat() chat.load(compile=False) wavs = chat.infer(["这是ChatTTS的效果,[laugh]很有趣对吧"]) Fish Speech:中文效果不错 优点: ...

January 7, 2026 · 1 min · Chico