语音克隆

两个主流开源方案模型特点数据需求显存要求 XTTS v2 多语言，效果稳定 2-20分钟 12GB+ Fish Speech 中文效果好，速度快 3-10秒起 4GB+ 方案一：XTTS微调准备工作硬件要求： GPU：12GB显存以上（推荐16GB）内存：16GB以上数据要求：至少2-3分钟清晰录音推荐5-20分钟效果更好 WAV格式，16kHz以上安装 1 2 3 git clone https://github.com/daswer123/xtts-finetune-webui cd xtts-finetune-webui pip install -r requirements.txt 数据格式 1 2 3 4 5 6 dataset/ ├── audio/ │ ├── 001.wav │ ├── 002.wav │ └── ... └── metadata.csv metadata.csv 格式： 1 2 3 audio_file|text|speaker_name audio/001.wav|今天天气真不错。|my_voice audio/002.wav|我们去公园散步吧。|my_voice 训练配置 1 2 3 4 # 关键参数 batch_size: 2 # 显存不够就调小 epochs: 10-50 # 数据少就多跑几轮 learning_rate: 5e-6 # 别调太大，容易过拟合常见问题问题1：训练后声音变奇怪 → 过拟合了，减少epochs或增加数据 ...

先说个真事朋友公司有人收到"老板"的语音消息，让转账50万。声音、语气都对，差点就转了。后来发现是AI克隆的——骗子从老板的抖音视频里扒了几十秒素材。这就是现在声音克隆的水平：以假乱真。 60秒能干什么用ElevenLabs举例： 1 2 3 4 5 6 7 8 9 10 11 12 13 from elevenlabs import clone, generate # 上传60秒录音 voice = clone( name="我的声音", files=["sample.mp3"] ) # 让它说任何话 audio = generate( text="这话我从没说过", voice=voice ) 就这么简单。效果好到专业人士都分辨不出。能用来干什么正经用途：有声书制作（成本从10万降到1千）虚拟主播（24小时不下播）游戏NPC配音（1000个NPC，1000种声音）帮失声的人"说话" 不正经用途：诈骗（前面说的那种）伪造录音未经授权用别人的声音怎么防骗涉及转账，打电话确认。语音消息不算数。设暗号。家人之间约定一个只有你们知道的词。听细节。AI声音太"完美"——没有呼吸声、没有口水音、没有犹豫。怎么玩免费方案： Coqui TTS（开源），需要自己部署付费方案： ElevenLabs，$11/月起，效果最好录音技巧：安静环境正常语速至少60秒，内容越丰富越好配音演员会失业吗低端活会被抢：有声书旁白、广告配音、游戏NPC。 ...

TTS模型微调：用自己的声音训练语音模型

声音克隆：60秒复制你的声音，然后呢？