语音合成 | Chico's Tech Blog

先说结论场景推荐理由商业产品/最高质量 ElevenLabs 效果最好，延迟低对话/聊天场景 ChatTTS 专为对话设计，开源免费中文场景 Fish Speech 中文效果好，开源可私部署学习/尝鲜都试试各有特色 ElevenLabs：效果最好，但贵优点：音质最自然，接近真人延迟100ms以下语音克隆只需60秒样本支持32种情感表达缺点：贵（$5起/月，按字符计费）闭源，数据在云端适合谁：商业产品、对音质要求高的场景 1 2 3 4 5 6 7 from elevenlabs import generate audio = generate( text="你好，这是ElevenLabs的效果", voice="Bella", model="eleven_turbo_v2_5" ) ChatTTS：对话场景的开源选择优点：专为对话设计，支持笑声、停顿等完全开源免费本地部署，数据安全缺点：音质略逊于ElevenLabs 长文本表现一般适合谁：聊天机器人、语音助手 1 2 3 4 5 6 7 import ChatTTS import torch chat = ChatTTS.Chat() chat.load(compile=False) wavs = chat.infer(["这是ChatTTS的效果，[laugh]很有趣对吧"]) Fish Speech：中文效果不错优点： ...