ElevenLabs

先说个真事朋友公司有人收到"老板"的语音消息，让转账50万。声音、语气都对，差点就转了。后来发现是AI克隆的——骗子从老板的抖音视频里扒了几十秒素材。这就是现在声音克隆的水平：以假乱真。 60秒能干什么用ElevenLabs举例： 1 2 3 4 5 6 7 8 9 10 11 12 13 from elevenlabs import clone, generate # 上传60秒录音 voice = clone( name="我的声音", files=["sample.mp3"] ) # 让它说任何话 audio = generate( text="这话我从没说过", voice=voice ) 就这么简单。效果好到专业人士都分辨不出。能用来干什么正经用途：有声书制作（成本从10万降到1千）虚拟主播（24小时不下播）游戏NPC配音（1000个NPC，1000种声音）帮失声的人"说话" 不正经用途：诈骗（前面说的那种）伪造录音未经授权用别人的声音怎么防骗涉及转账，打电话确认。语音消息不算数。设暗号。家人之间约定一个只有你们知道的词。听细节。AI声音太"完美"——没有呼吸声、没有口水音、没有犹豫。怎么玩免费方案： Coqui TTS（开源），需要自己部署付费方案： ElevenLabs，$11/月起，效果最好录音技巧：安静环境正常语速至少60秒，内容越丰富越好配音演员会失业吗低端活会被抢：有声书旁白、广告配音、游戏NPC。 ...

先说结论场景推荐理由商业产品/最高质量 ElevenLabs 效果最好，延迟低对话/聊天场景 ChatTTS 专为对话设计，开源免费中文场景 Fish Speech 中文效果好，开源可私部署学习/尝鲜都试试各有特色 ElevenLabs：效果最好，但贵优点：音质最自然，接近真人延迟100ms以下语音克隆只需60秒样本支持32种情感表达缺点：贵（$5起/月，按字符计费）闭源，数据在云端适合谁：商业产品、对音质要求高的场景 1 2 3 4 5 6 7 from elevenlabs import generate audio = generate( text="你好，这是ElevenLabs的效果", voice="Bella", model="eleven_turbo_v2_5" ) ChatTTS：对话场景的开源选择优点：专为对话设计，支持笑声、停顿等完全开源免费本地部署，数据安全缺点：音质略逊于ElevenLabs 长文本表现一般适合谁：聊天机器人、语音助手 1 2 3 4 5 6 7 import ChatTTS import torch chat = ChatTTS.Chat() chat.load(compile=False) wavs = chat.infer(["这是ChatTTS的效果，[laugh]很有趣对吧"]) Fish Speech：中文效果不错优点： ...

ElevenLabs

声音克隆：60秒复制你的声音，然后呢？

TTS选型指南：ElevenLabs、ChatTTS、Fish Speech怎么选