声音克隆:60秒复制你的声音,然后呢?

先说个真事 朋友公司有人收到"老板"的语音消息,让转账50万。声音、语气都对,差点就转了。后来发现是AI克隆的——骗子从老板的抖音视频里扒了几十秒素材。 这就是现在声音克隆的水平:以假乱真。 60秒能干什么 用ElevenLabs举例: 1 2 3 4 5 6 7 8 9 10 11 12 13 from elevenlabs import clone, generate # 上传60秒录音 voice = clone( name="我的声音", files=["sample.mp3"] ) # 让它说任何话 audio = generate( text="这话我从没说过", voice=voice ) 就这么简单。效果好到专业人士都分辨不出。 能用来干什么 正经用途: 有声书制作(成本从10万降到1千) 虚拟主播(24小时不下播) 游戏NPC配音(1000个NPC,1000种声音) 帮失声的人"说话" 不正经用途: 诈骗(前面说的那种) 伪造录音 未经授权用别人的声音 怎么防骗 涉及转账,打电话确认。语音消息不算数。 设暗号。家人之间约定一个只有你们知道的词。 听细节。AI声音太"完美"——没有呼吸声、没有口水音、没有犹豫。 怎么玩 免费方案: Coqui TTS(开源),需要自己部署 付费方案: ElevenLabs,$11/月起,效果最好 录音技巧: 安静环境 正常语速 至少60秒,内容越丰富越好 配音演员会失业吗 低端活会被抢:有声书旁白、广告配音、游戏NPC。 ...

January 10, 2026 · 1 min · Chico

TTS选型指南:ElevenLabs、ChatTTS、Fish Speech怎么选

先说结论 场景 推荐 理由 商业产品/最高质量 ElevenLabs 效果最好,延迟低 对话/聊天场景 ChatTTS 专为对话设计,开源免费 中文场景 Fish Speech 中文效果好,开源可私部署 学习/尝鲜 都试试 各有特色 ElevenLabs:效果最好,但贵 优点: 音质最自然,接近真人 延迟100ms以下 语音克隆只需60秒样本 支持32种情感表达 缺点: 贵($5起/月,按字符计费) 闭源,数据在云端 适合谁: 商业产品、对音质要求高的场景 1 2 3 4 5 6 7 from elevenlabs import generate audio = generate( text="你好,这是ElevenLabs的效果", voice="Bella", model="eleven_turbo_v2_5" ) ChatTTS:对话场景的开源选择 优点: 专为对话设计,支持笑声、停顿等 完全开源免费 本地部署,数据安全 缺点: 音质略逊于ElevenLabs 长文本表现一般 适合谁: 聊天机器人、语音助手 1 2 3 4 5 6 7 import ChatTTS import torch chat = ChatTTS.Chat() chat.load(compile=False) wavs = chat.infer(["这是ChatTTS的效果,[laugh]很有趣对吧"]) Fish Speech:中文效果不错 优点: ...

January 7, 2026 · 1 min · Chico