TTS数据准备:从录音到训练的完整流程
数据决定上限 TTS模型效果好不好,80%取决于数据质量。 常见问题: 录音有底噪 → 合成出来有杂音 音量不稳定 → 合成忽大忽小 断句不自然 → 合成节奏奇怪 录音要求 硬件 设备 推荐 预算 麦克风 电容麦(如AT2020) ¥500-1500 声卡 独立声卡或USB麦 ¥300-800 环境 安静房间+吸音棉 ¥100-300 录音参数 1 2 3 采样率: 48kHz(至少16kHz) 位深: 24-bit 格式: WAV(无损) 录音技巧 距离:麦克风离嘴15-20cm 音量:保持-12dB到-6dB之间 状态:正常语速,自然呼吸 时长:至少2小时(5-10小时效果更好) 数据清洗流程 graph LR A[原始音频] --> B[降噪] B --> C[音量标准化] C --> D[切分句子] D --> E[对齐文本] E --> F[质量检查] F --> G[训练数据] 1. 降噪 工具:Audacity(免费)、Adobe Podcast(在线) 1 2 # 使用ffmpeg + rnnoise降噪 ffmpeg -i input.wav -af "arnndn=m=rnnoise-models/bd.rnnn" output.wav ⚠️ 注意:过度降噪会导致声音失真,宁可保留少量底噪 ...