语音克隆的滥用与检测

2025 年第一季度,美国境内利用深度伪造语音的电话诈骗(vishing)环比涨了 1600% 多。同一年 FBI 的互联网犯罪报告里,跟 AI 相关的诈骗投诉超过 2.2 万起,涉案金额 8.93 亿美元。 这些数字背后有一个让人不舒服的事实:克隆一个人的声音,现在只需要三秒公开音频。你公司高管参加过的每一场财报电话会、每一次大会演讲、每一段播客采访,都躺在公网上,对想用它的人来说就是现成的训练素材。 克隆技术本身已经不是新闻——这个博客之前写过《声音克隆:60秒复制你的声音,然后呢?》。这篇讲"然后"的另一面:声音一旦能被以假乱真地复制,我们靠什么分辨真假,以及这件事到底能做到多好。 滥用长什么样:三种,不是一种 把"AI 语音诈骗"当成一个笼统的词,会让你低估它。它至少是三类性质不同的攻击。 第一类是社工诈骗。 最经典的是"亲人求救":伪造你孩子的哭腔打电话说出事了急需用钱。但 2025 年真正造成大额损失的是企业版——伪造 CEO 或 CFO 的声音,指示财务转账。香港那起 2.56 亿港元的案子是个标志:财务员工参加了一场视频会议,会议里的 CFO 和同事全是 AI 生成的,人脸、口型、声音都对得上,他一开始怀疑是钓鱼,但一场"活的"视频会把他的怀疑全打消了,直到事后跟总部人工核对才发现。 第二类是声纹绕过。 不少银行和券商用"我的声音就是我的密码"做身份验证。克隆语音直接攻击这套系统。它比社工诈骗更隐蔽,因为受害的不是某个被吓住的人,而是一套自动化的认证流程——没有人在场可以"觉得不对劲"。2025 年 1 到 8 月,某金融机构的活体检测被 AI 伪造尝试绕过了 8000 多次。 第三类是假音频内容。 伪造公众人物的录音、伪造一段"泄露的会议录音"、给某段视频配上从没说过的话。它不针对个人钱包,针对的是舆论和信任。2024 年美国大选期间出现过伪造拜登声音的自动外呼电话,就是这一类。 三类攻击的防御手段完全不同。社工诈骗要靠流程和人的警觉,声纹绕过要靠活体检测,假内容要靠溯源和检测——别指望一招通吃。 检测合成语音:能做到,但有前提 检测分两条路:被动检测(拿到一段音频,判断它是不是 AI 合成的)和主动标记(生成时就打上记号)。先说被动。 被动检测模型在学术基准上的成绩相当好。这个领域有一套延续多年的评测体系——从早年的 ASVspoof 挑战赛,到 2026 年 ICME 的环境感知语音检测挑战赛(ESDD2)、ACM Multimedia 的全类型音频伪造检测挑战赛(AT-ADD)。检测模型也在进步:用 Whisper 这类大规模语音模型抽特征,比传统声学特征的等错误率(EER)低了约 21%,再针对反伪造任务微调 Whisper 编码器,还能再降近 15%。 听起来不错。但"在干净数据集上 EER 很低"和"在真实世界管用"之间,差了一整条鸿沟。 flowchart TD A[一段语音] --> B{被动检测模型} B -->|实验室条件| C[准确率很高] B -->|真实世界| D[麻烦开始了] D --> E[电话信道压缩] D --> F[录音回放/翻录] D --> G[训练时没见过的新 TTS] D --> H[环境噪声/混响] style C fill:#d8f0d8,stroke:#5aa05a style D fill:#fde7c2,stroke:#e8b23c 真实世界里有三个东西在持续打击检测准确率: ...

2026-04-27 · 2 min · Chico

TTS模型微调:用自己的声音训练语音模型

两个主流开源方案 模型 特点 数据需求 显存要求 XTTS v2 多语言,效果稳定 2-20分钟 12GB+ Fish Speech 中文效果好,速度快 3-10秒起 4GB+ 方案一:XTTS微调 准备工作 硬件要求: GPU:12GB显存以上(推荐16GB) 内存:16GB以上 数据要求: 至少2-3分钟清晰录音 推荐5-20分钟效果更好 WAV格式,16kHz以上 安装 1 2 3 git clone https://github.com/daswer123/xtts-finetune-webui cd xtts-finetune-webui pip install -r requirements.txt 数据格式 1 2 3 4 5 6 dataset/ ├── audio/ │ ├── 001.wav │ ├── 002.wav │ └── ... └── metadata.csv metadata.csv 格式: 1 2 3 audio_file|text|speaker_name audio/001.wav|今天天气真不错。|my_voice audio/002.wav|我们去公园散步吧。|my_voice 训练配置 1 2 3 4 # 关键参数 batch_size: 2 # 显存不够就调小 epochs: 10-50 # 数据少就多跑几轮 learning_rate: 5e-6 # 别调太大,容易过拟合 常见问题 问题1:训练后声音变奇怪 → 过拟合了,减少epochs或增加数据 ...

2026-01-16 · 2 min · Chico

声音克隆:60秒复制你的声音,然后呢?

先说个真事 朋友公司有人收到"老板"的语音消息,让转账50万。声音、语气都对,差点就转了。后来发现是AI克隆的——骗子从老板的抖音视频里扒了几十秒素材。 这就是现在声音克隆的水平:以假乱真。 60秒能干什么 用ElevenLabs举例: 1 2 3 4 5 6 7 8 9 10 11 12 13 from elevenlabs import clone, generate # 上传60秒录音 voice = clone( name="我的声音", files=["sample.mp3"] ) # 让它说任何话 audio = generate( text="这话我从没说过", voice=voice ) 就这么简单。效果好到专业人士都分辨不出。 能用来干什么 正经用途: 有声书制作(成本从10万降到1千) 虚拟主播(24小时不下播) 游戏NPC配音(1000个NPC,1000种声音) 帮失声的人"说话" 不正经用途: 诈骗(前面说的那种) 伪造录音 未经授权用别人的声音 怎么防骗 涉及转账,打电话确认。语音消息不算数。 设暗号。家人之间约定一个只有你们知道的词。 听细节。AI声音太"完美"——没有呼吸声、没有口水音、没有犹豫。 怎么玩 免费方案: Coqui TTS(开源),需要自己部署 付费方案: ElevenLabs,$11/月起,效果最好 录音技巧: 安静环境 正常语速 至少60秒,内容越丰富越好 配音演员会失业吗 低端活会被抢:有声书旁白、广告配音、游戏NPC。 ...

2026-01-10 · 1 min · Chico