# Chico's Tech Blog > 实时语音 AI、AI Agent、LLM 工程方向的中文技术博客。作者 Chico,对话式 AI 工程师 / 实时语音系统构建者。文章偏工程实战与技术判断,主题覆盖语音 AI、Agent 系统、大模型应用、AI 编程。 站点:https://realtime-ai.chat/ 定位:探索AI前沿技术 | Agent系统 | 语音AI | LLM应用 ## 技术文章 - [上下文工程:2026 年比 prompt engineering 更重要的事](https://realtime-ai.chat/posts/context-engineering/): 2026 年做 AI Agent,真正的瓶颈不是 prompt 写得够不够漂亮,而是整个上下文窗口里塞了什么。这篇讲清 context engineering 的边界、反模式与可操作原则。 - [实时语音对话的延迟预算:把「AI 慢半拍」拆到毫秒](https://realtime-ai.chat/posts/voice-latency-budget/): 从用户说完到 AI 出声,500~900ms 花在哪里?逐段拆解语音 Agent 的延迟预算,以及流式、打断、级联与端到端的工程取舍。 - [AI IDE 这半年:Cursor、Claude Code、Windsurf 之后](https://realtime-ai.chat/posts/ai-ide-2026/): 复盘 2026 上半年 AI 编程工具的演变:从代码补全到后台 agent,Cursor、Claude Code、Windsurf、Copilot 的真实定位与差异,以及开发者从写代码转向审代码、派活的工作方式变化。 - [2026 大模型选型:别问「哪个最强」,问「哪个够用」](https://realtime-ai.chat/posts/llm-selection-2026/): 2026 年大模型选型不该看跑分排名。这篇给一套按场景选型的决策框架:能力梯队、推理成本、延迟、上下文、闭源开源、私有化部署,附决策流程图。 - [给 Agent 写工具:一个好 tool 长什么样](https://realtime-ai.chat/posts/agent-tool-design/): Agent 跑不好,常常不是模型不行,是工具设计得差。这篇讲清工具描述、参数、返回值、错误回传、粒度切分该怎么做,每条都配正反例。 - [RAG、微调、长上下文:2026 年到底选哪个](https://realtime-ai.chat/posts/rag-finetune-longcontext/): RAG、微调、长上下文是给模型补知识的三条路。这篇拆开各自的真实成本、维护代价和时效性,讲清楚什么时候该选哪个,结尾给一张决策流程图。 - [Agent 上线之后:怎么评估和监控](https://realtime-ai.chat/posts/agent-evals/): Agent 难的不是搭出来,是上线后知道它好不好。讲清楚 Agent 该看哪些指标、怎么做离线 eval、在线 trace、人审和 LLM-as-judge 的取舍,以及回归怎么防。 - [多 Agent:大多数时候你并不需要](https://realtime-ai.chat/posts/when-multi-agent/): 多 Agent 不是更高级,是更贵。讲清楚它真正适用的三种场景、被低估的五项代价,以及一个简单到能记住的判断标准:先单 Agent 加子任务工具,撞墙了再拆。 - [浏览器与电脑操作 Agent:2026 能用了吗](https://realtime-ai.chat/posts/computer-use-agents/): Computer use 和浏览器 Agent 在 2026 年 5 月真实水平如何?这篇从基准分数、能做与做不好的事、延迟成本和 prompt injection 安全风险,务实拆一遍。 - [Agent 记忆系统:别一上来就上向量库](https://realtime-ai.chat/posts/agent-memory/): 做 Agent 记忆,80% 的团队不需要向量数据库。这篇按对话窗口、摘要压缩、结构化记忆、向量检索四级演进路径,讲清每一级什么时候该升级,以及向量库真实的复杂度成本。 - [MCP 生态这半年:从协议到工具市场](https://realtime-ai.chat/posts/mcp-ecosystem/): 公开 MCP server 注册表从去年底六千多涨到九千多,远程 MCP、官方 registry、安全争议轮番上场。这篇梳理这半年 MCP 从一纸协议长成一个生态的真实变化与取舍。 - [语音模型这一年:从 ASR 到端到端语音](https://realtime-ai.chat/posts/speech-models-2026/): 语音模型两年走完了从专用 ASR 到多模态语音理解、再到端到端 speech-to-speech 的三级跳。这篇梳理每一代解决了什么、代价是什么,以及 2026 年该用哪一代。 - [从朴素 RAG 到 Agentic RAG](https://realtime-ai.chat/posts/agentic-rag/): 朴素 RAG 的「一次检索 + 一次生成」在多跳和模糊问题上会失败。这篇拆解它如何演进成 Agentic RAG:查询改写、多轮检索、自我纠错、把检索当工具,以及代价值不值得。 - [流式 TTS:把首包延迟压到 150ms](https://realtime-ai.chat/posts/streaming-tts-latency/): 整句合成耗时 1.5 秒,用户却只感知 150ms——这篇拆开流式 TTS 的首包延迟:怎么压、怎么取舍、踩过哪些韵律和卡顿的坑。 - [Prompt Injection:Agent 时代的头号安全问题](https://realtime-ai.chat/posts/prompt-injection-2026/): Agent 能调工具、能读外部内容之后,prompt injection 从好玩的越狱变成真正的数据泄露。拆解间接注入为什么最致命、真实攻击形态,以及工程上唯一靠谱的缓解思路。 - [推理模型这一年:o3 之后学到了什么](https://realtime-ai.chat/posts/reasoning-models-2026/): 从 o1、o3 到 2026 年,推理模型把 test-time compute 变成可调旋钮。这一年大家学到的是:思考有成本,不是所有任务都值得想。 - [AI 视频生成 2026:Sora、可灵、Veo 到哪了](https://realtime-ai.chat/posts/ai-video-2026/): 2026 年 AI 视频生成到底能干什么:Sora 2、可灵 3.0、Veo 3.1、Seedance 2.0 各自的定位、能落地的场景,以及离替代真实拍摄还差的那几步。 - [LLM 评估怎么做才靠谱](https://realtime-ai.chat/posts/llm-evals/): 公开 benchmark 为什么不能直接信、怎么建自己的 eval 集、LLM-as-judge 有哪些偏差、如何防止过拟合 eval,以及 A/B 与线上指标的取舍。 - [AI 写的代码,谁来审](https://realtime-ai.chat/posts/coding-agent-review/): AI 能批量产出代码后,工程瓶颈从「写」挪到了「审」。这篇讲清 AI 代码为什么更难 review、人审扛不住量怎么办、AI 审 AI 靠不靠谱,以及团队流程该怎么改。 - [小模型的逆袭:端侧 LLM 现在能干什么](https://realtime-ai.chat/posts/small-models-edge/): 旗舰大模型抢头条,但几 B 参数的小模型和手机、笔电端侧部署这一年悄悄拉满。这篇讲清小模型现在能做好什么、量化和蒸馏怎么起作用、隐私延迟成本的真账,以及它干不了什么。 - [MoE 为什么成了大模型标配](https://realtime-ai.chat/posts/moe-architecture/): DeepSeek V3 一共 6710 亿参数,推理时每个 token 只用 370 亿。这篇讲清 MoE 怎么做到「参数量大但推理便宜」,以及它换来的工程代价。 - [让 LLM 输出可靠的结构化数据](https://realtime-ai.chat/posts/structured-output/): LLM 接进系统最常踩的坑,是它返回的 JSON 时好时坏。从 prompt 约束到约束解码,逐个拆解几种方案的真实代价、schema 设计与流式场景的兜底。 - [Prompt Caching 实战:把推理成本和延迟砍下来](https://realtime-ai.chat/posts/prompt-caching/): 同一段 system prompt 反复 prefill 是在烧钱。这篇讲清 prompt caching 怎么命中、缓存断点放哪、Anthropic/OpenAI/Gemini/DeepSeek 各家计费与 TTL 差异,以及对延迟的影响。 - [开源大模型 2026:DeepSeek、Qwen、Llama 的格局](https://realtime-ai.chat/posts/open-source-llm-2026/): 复盘 2026 年开放权重模型这一年:DeepSeek V4、Qwen 3.6、Llama 4 各自的位置,中国开源为什么强势,开源闭源差距还剩几个点,以及许可证与生态的真实账。 - [LLM 网关:多模型怎么统一接入和路由](https://realtime-ai.chat/posts/llm-gateway/): 应用接入第二个模型那天起,就该有一层 LLM 网关。讲清它解决的统一 API、密钥、故障转移、限流、成本与缓存,自建与现成怎么选,路由策略怎么定,以及多一跳的代价。 - [百万级上下文真的能用吗](https://realtime-ai.chat/posts/long-context-reality/): 模型标称 1M、2M 上下文,但放得进不等于用得好。聊聊有效上下文、lost in the middle、长上下文下的成本与延迟暴涨,以及怎么实测验证。 - [模型蒸馏:把大模型的能力搬进小模型](https://realtime-ai.chat/posts/model-distillation/): 蒸馏不是模型压缩的玄学,而是用大模型当老师教小模型。这篇讲清楚蒸馏到底搬走了什么、和微调的关系、能搬多少、做不到什么,以及一套能落地的实践流程和常见坑。 - [Agent 的 token 账单怎么管](https://realtime-ai.chat/posts/agent-token-cost/): Agent 上线后 token 成本最容易失控:多轮、长上下文、工具结果会成倍放大开销。这篇讲清钱花在哪、怎么定位大头,以及 prompt caching、上下文压缩、模型路由、步数熔断等可落地手段。 - [AI 编程是不是泡沫](https://realtime-ai.chat/posts/ai-coding-bubble/): AI 写了 41% 的新代码,但实测里资深工程师反而慢了 19%。这篇冷静拆解 AI 编程的真实生产力收益、被夸大的环节,以及「泡沫」二字到底站不站得住。 - [实时语音的打断:barge-in 怎么做对](https://realtime-ai.chat/posts/barge-in-engineering/): 用户插话时,语音 Agent 要原子地停播放、取消 TTS、取消 LLM、清状态。这篇拆解打断检测、误打断防护、回声消除与打断后上下文怎么接。 - [语音克隆的滥用与检测](https://realtime-ai.chat/posts/voice-clone-detection/): 语音克隆已经以假乱真,这篇讲防御侧:诈骗与声纹绕过的真实形态、合成语音检测能做到多少、音频水印如何溯源,以及为什么这是一场猫鼠游戏。 - [语音合成的情绪与韵律:怎么让 AI 不像念稿](https://realtime-ai.chat/posts/emotion-prosody-tts/): TTS 发音已经很准了,但很多还是「念稿感」。这篇讲清韵律和情绪为什么难、怎么控制,以及端到端语音模型在情绪上的天然优势,和过度表演的反效果。 - [ASR 工程:语音识别落地的那些坑](https://realtime-ai.chat/posts/asr-engineering/): ASR demo 很美,落地很坑。流式与非流式怎么选、专有名词和中英混读怎么救、WER 为什么会骗你,这篇把语音识别工程化里真正难的部分讲清楚。 - [图像生成 2026:现状、玩法与落地](https://realtime-ai.chat/posts/image-gen-2026/): 2026 年的 AI 图像生成已经过了拼画质的阶段。这篇务实拆解主流工具的定位、现在真能做好什么、还做不好什么、可控性手段,以及版权与水印怎么办。 - [AI 视频的可控性:运镜、一致性、参考图](https://realtime-ai.chat/posts/ai-video-control/): AI 视频画质已经够用,真正卡落地的是控制——运镜、角色一致性、首尾帧、局部编辑。这篇拆开 2026 年可控视频生成的方法、边界和拼片成叙事的工作流。 - [视觉理解模型用在 Agent 里](https://realtime-ai.chat/posts/vision-agents/): VLM 让 Agent 长出一只眼睛——能看截图、读图表、做质检。但视觉定位的可靠性、坐标的坑、视觉 token 的成本,决定了什么时候该看、什么时候别看。 - [向量数据库 2026:还需要专用的吗](https://realtime-ai.chat/posts/vector-db-2026/): pgvector 已经能扛住大多数 RAG 业务,Milvus、Qdrant 这些专用向量库在 2026 年到底什么时候才真的需要?这篇按规模、过滤、混合检索给一份选型判断。 - [AI 应用的护栏:输入输出怎么管](https://realtime-ai.chat/posts/ai-guardrails/): LLM 应用上线前,护栏决定它会不会闯祸。这篇拆解护栏管什么、怎么做、放哪一层、怎么测,以及过度护栏的反效果——给一份能直接对照的上线清单。 - [实时语音 API 横评:OpenAI、Gemini 与国内](https://realtime-ai.chat/posts/realtime-voice-api/): 做语音 Agent 该选 OpenAI Realtime、Gemini Live 还是国内方案?这篇按延迟、打断、音色、价格、可控性、合规八个维度横评主流实时语音 API,并给出选型建议。 - [TTS模型微调:用自己的声音训练语音模型](https://realtime-ai.chat/posts/tts-finetuning/): TTS 模型微调实战:用 XTTS、Fish Speech 训练你自己的声音,语音克隆的完整步骤。 - [AI编程助手怎么选?Copilot vs Cursor vs Claude Code](https://realtime-ai.chat/posts/ai-coding-tools/): GitHub Copilot、Cursor、Claude Code 三大 AI 编程助手怎么选:实测体验对比与选型建议。 - [TTS数据准备:从录音到训练的完整流程](https://realtime-ai.chat/posts/tts-data-preparation/): TTS 数据准备完整流程:从录音、采样率到清洗标注,数据质量决定 80% 的语音合成效果。 - [Vibe Coding:当编程变成聊天,程序员该何去何从](https://realtime-ai.chat/posts/vibe-coding-era/): Vibe Coding 时代来临:当编程变成与 AI 聊天,程序员的角色如何转变,又该如何应对。 - [Dify vs Coze vs FastGPT:低代码AI平台终极对决](https://realtime-ai.chat/posts/lowcode-ai-platforms/): Dify、Coze、FastGPT 三大低代码 AI 平台横向对决:工作流能力、适用场景与选型建议。 - [Voice Agent架构:从语音输入到智能响应](https://realtime-ai.chat/posts/voice-agent-architecture/): Voice Agent 架构详解:ASR→LLM→TTS 的完整链路,如何构建能听会说的实时语音助手。 - [Claude Code 深度体验:终端里的AI编程革命](https://realtime-ai.chat/posts/claude-code-deep-dive/): Claude Code 深度体验评测:终端里的 AI 编程到底强在哪,与 Cursor、Copilot 的真实差异。 - [RAG实战:让AI不再胡说八道](https://realtime-ai.chat/posts/rag-practical-guide/): RAG 实战指南:用检索增强生成让大模型「先查资料再回答」,有效减少幻觉,附向量数据库落地要点。 - [提示词工程实战手册:让AI听懂你的话](https://realtime-ai.chat/posts/prompt-engineering-handbook/): 提示词工程实战手册:用 CRISP 框架写出让 AI 准确理解的 Prompt,附 ChatGPT、Claude 实用技巧。 - [MCP协议:AI工具的「乐高积木」玩法](https://realtime-ai.chat/posts/mcp-protocol-guide/): 用「乐高积木」的比喻讲清 MCP 协议:它如何像 USB 一样让任意工具接入 AI,以及工具集成的实战玩法。 - [声音克隆:60秒复制你的声音,然后呢?](https://realtime-ai.chat/posts/voice-cloning/): 声音克隆技术现状:60 秒复制一个人的声音有多容易,以及随之而来的诈骗风险与防范。 - [AI特工的一天:揭秘Agent如何像人类一样「打工」](https://realtime-ai.chat/posts/ai-agent-daily-workflow/): 通过一个 AI Agent 的「一天工作流」,直观拆解 Agent 如何感知、规划、调用工具并自动完成任务,附 MCP 协议实战案例。 - [AI Agent架构:想清楚再动手](https://realtime-ai.chat/posts/agent-architecture/): AI Agent 架构设计入门:感知—思考—行动—反馈的核心循环,先想清楚架构再动手,避开常见设计陷阱。 - [Claude Code 高级功能实战:MCP、Hooks、SubAgent 与自定义命令](https://realtime-ai.chat/posts/claude-code-advanced-features/): Claude Code 高级功能实战:MCP、Hooks、SubAgent 与自定义命令,把 AI 编程从「对话写代码」升级为自动化工作流。 - [本地部署大模型完全指南:Ollama + vLLM + LMStudio 实战](https://realtime-ai.chat/posts/local-llm-deployment/): 本地部署大模型完全指南:Ollama、vLLM、LMStudio 三种方案实战对比,兼顾隐私、性能与成本。 - [多模态AI:当机器学会「看图说话」](https://realtime-ai.chat/posts/multimodal-ai-breakthrough/): 多模态 AI 最新进展:GPT-4V、Gemini、CLIP 等视觉语言模型如何让机器「看图说话」,理解图像并给出建议。 - [LangGraph 1.0 详解:构建生产级有状态Agent工作流](https://realtime-ai.chat/posts/langgraph-stateful-agent-workflow/): LangGraph 1.0 完整详解:图状态编排、持久化执行、检查点机制,手把手构建生产级有状态 Agent 工作流。 ## 站内主要页面 - [作品 / 开源项目](https://realtime-ai.chat/projects/): Chico 开发的工具与项目 - [关于](https://realtime-ai.chat/about/) - [全部文章](https://realtime-ai.chat/posts/) ## 站外 - GitHub: https://github.com/chicogong