TTS | Chico's Tech Blog

TTS模型微调：用自己的声音训练语音模型

两个主流开源方案模型特点数据需求显存要求 XTTS v2 多语言，效果稳定 2-20分钟 12GB+ Fish Speech 中文效果好，速度快 3-10秒起 4GB+ 方案一：XTTS微调准备工作硬件要求： GPU：12GB显存以上（推荐16GB）内存：16GB以上数据要求：至少2-3分钟清晰录音推荐5-20分钟效果更好 WAV格式，16kHz以上安装 1 2 3 git clone https://github.com/daswer123/xtts-finetune-webui cd xtts-finetune-webui pip install -r requirements.txt 数据格式 1 2 3 4 5 6 dataset/ ├── audio/ │ ├── 001.wav │ ├── 002.wav │ └── ... └── metadata.csv metadata.csv 格式： 1 2 3 audio_file|text|speaker_name audio/001.wav|今天天气真不错。|my_voice audio/002.wav|我们去公园散步吧。|my_voice 训练配置 1 2 3 4 # 关键参数 batch_size: 2 # 显存不够就调小 epochs: 10-50 # 数据少就多跑几轮 learning_rate: 5e-6 # 别调太大，容易过拟合常见问题问题1：训练后声音变奇怪 → 过拟合了，减少epochs或增加数据 ...

TTS数据准备：从录音到训练的完整流程

数据决定上限 TTS模型效果好不好，80%取决于数据质量。常见问题：录音有底噪 → 合成出来有杂音音量不稳定 → 合成忽大忽小断句不自然 → 合成节奏奇怪录音要求硬件设备推荐预算麦克风电容麦（如AT2020） ¥500-1500 声卡独立声卡或USB麦 ¥300-800 环境安静房间+吸音棉 ¥100-300 录音参数 1 2 3 采样率: 48kHz（至少16kHz）位深: 24-bit 格式: WAV（无损）录音技巧距离：麦克风离嘴15-20cm 音量：保持-12dB到-6dB之间状态：正常语速，自然呼吸时长：至少2小时（5-10小时效果更好）数据清洗流程 graph LR A[原始音频] --> B[降噪] B --> C[音量标准化] C --> D[切分句子] D --> E[对齐文本] E --> F[质量检查] F --> G[训练数据] 1. 降噪工具：Audacity（免费）、Adobe Podcast（在线） 1 2 # 使用ffmpeg + rnnoise降噪 ffmpeg -i input.wav -af "arnndn=m=rnnoise-models/bd.rnnn" output.wav ⚠️ 注意：过度降噪会导致声音失真，宁可保留少量底噪 ...

Voice Agent架构：从语音输入到智能响应

Voice Agent 是什么一句话：能听会说的AI助手。 graph LR A[用户说话] --> B[ASR语音识别] B --> C[LLM理解+生成] C --> D[TTS语音合成] D --> E[播放给用户] 看起来简单，但要做好有三个核心挑战：延迟 - 用户说完到AI回复，要控制在1-2秒内打断 - 用户随时可以打断AI说话自然度 - 不能像机器人一样僵硬核心架构方案一：串行流水线 1 用户说话 → [等说完] → ASR → LLM → TTS → 播放优点：实现简单缺点：延迟高（3-5秒）适合：对延迟不敏感的场景（如语音留言）方案二：流式处理 1 用户说话 → [边说边识别] → [边生成边合成] → [边合成边播放] 优点：延迟低（1-2秒）缺点：实现复杂，需要处理中间状态适合：实时对话场景关键组件 1. ASR（语音识别）方案延迟准确率成本 Whisper API 1-2s 95%+ 按时长计费 Deepgram 200ms 90%+ 按时长计费本地Whisper 500ms-2s 95%+ 需要GPU 实时识别关键： ...

声音克隆：60秒复制你的声音，然后呢？

先说个真事朋友公司有人收到"老板"的语音消息，让转账50万。声音、语气都对，差点就转了。后来发现是AI克隆的——骗子从老板的抖音视频里扒了几十秒素材。这就是现在声音克隆的水平：以假乱真。 60秒能干什么用ElevenLabs举例： 1 2 3 4 5 6 7 8 9 10 11 12 13 from elevenlabs import clone, generate # 上传60秒录音 voice = clone( name="我的声音", files=["sample.mp3"] ) # 让它说任何话 audio = generate( text="这话我从没说过", voice=voice ) 就这么简单。效果好到专业人士都分辨不出。能用来干什么正经用途：有声书制作（成本从10万降到1千）虚拟主播（24小时不下播）游戏NPC配音（1000个NPC，1000种声音）帮失声的人"说话" 不正经用途：诈骗（前面说的那种）伪造录音未经授权用别人的声音怎么防骗涉及转账，打电话确认。语音消息不算数。设暗号。家人之间约定一个只有你们知道的词。听细节。AI声音太"完美"——没有呼吸声、没有口水音、没有犹豫。怎么玩免费方案： Coqui TTS（开源），需要自己部署付费方案： ElevenLabs，$11/月起，效果最好录音技巧：安静环境正常语速至少60秒，内容越丰富越好配音演员会失业吗低端活会被抢：有声书旁白、广告配音、游戏NPC。 ...

TTS选型指南：ElevenLabs、ChatTTS、Fish Speech怎么选

先说结论场景推荐理由商业产品/最高质量 ElevenLabs 效果最好，延迟低对话/聊天场景 ChatTTS 专为对话设计，开源免费中文场景 Fish Speech 中文效果好，开源可私部署学习/尝鲜都试试各有特色 ElevenLabs：效果最好，但贵优点：音质最自然，接近真人延迟100ms以下语音克隆只需60秒样本支持32种情感表达缺点：贵（$5起/月，按字符计费）闭源，数据在云端适合谁：商业产品、对音质要求高的场景 1 2 3 4 5 6 7 from elevenlabs import generate audio = generate( text="你好，这是ElevenLabs的效果", voice="Bella", model="eleven_turbo_v2_5" ) ChatTTS：对话场景的开源选择优点：专为对话设计，支持笑声、停顿等完全开源免费本地部署，数据安全缺点：音质略逊于ElevenLabs 长文本表现一般适合谁：聊天机器人、语音助手 1 2 3 4 5 6 7 import ChatTTS import torch chat = ChatTTS.Chat() chat.load(compile=False) wavs = chat.infer(["这是ChatTTS的效果，[laugh]很有趣对吧"]) Fish Speech：中文效果不错优点： ...