音频处理 | Chico's Tech Blog

数据决定上限 TTS模型效果好不好，80%取决于数据质量。常见问题：录音有底噪 → 合成出来有杂音音量不稳定 → 合成忽大忽小断句不自然 → 合成节奏奇怪录音要求硬件设备推荐预算麦克风电容麦（如AT2020） ¥500-1500 声卡独立声卡或USB麦 ¥300-800 环境安静房间+吸音棉 ¥100-300 录音参数 1 2 3 采样率: 48kHz（至少16kHz）位深: 24-bit 格式: WAV（无损）录音技巧距离：麦克风离嘴15-20cm 音量：保持-12dB到-6dB之间状态：正常语速，自然呼吸时长：至少2小时（5-10小时效果更好）数据清洗流程 graph LR A[原始音频] --> B[降噪] B --> C[音量标准化] C --> D[切分句子] D --> E[对齐文本] E --> F[质量检查] F --> G[训练数据] 1. 降噪工具：Audacity（免费）、Adobe Podcast（在线） 1 2 # 使用ffmpeg + rnnoise降噪 ffmpeg -i input.wav -af "arnndn=m=rnnoise-models/bd.rnnn" output.wav ⚠️ 注意：过度降噪会导致声音失真，宁可保留少量底噪 ...