AI Agent架构:想清楚再动手

Agent的核心循环 一个Agent本质上在做这件事: 1 感知 → 思考 → 行动 → 反馈 → 继续思考... 用代码表示: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 while not done: # 1. 理解用户要什么 intent = understand(user_input) # 2. 想想怎么做 plan = think(intent, memory) # 3. 动手执行 result = act(plan, tools) # 4. 看看结果对不对 if verify(result): done = True else: memory.add(result) # 记住失败,下次改进 三个关键模块 1. 记忆系统 Agent和普通LLM调用的区别:Agent会记东西。 1 2 3 4 5 6 7 8 9 class Memory: short_term = [] # 当前对话历史 long_term = {} # 跨对话的知识 def remember(self, key, value): self.long_term[key] = value def recall(self, query): return search(self.long_term, query) 实际应用: ...

2026-01-08 · 2 min · Chico

多模态AI:当机器学会「看图说话」

开场:一个神奇的对话 2025年某天,你和AI的对话: 你:[上传一张冰箱照片] 你:“帮我看看能做什么菜” AI:“我看到你冰箱里有:鸡蛋、西红柿、青椒、米饭… 推荐做番茄炒蛋盖饭!步骤如下…” 你:“等等,我不吃辣” AI:“好的,那把青椒换成黄瓜,做黄瓜炒蛋…” 这不是科幻,这是2025年的现实。 AI不仅能"看懂"你的冰箱,还能理解上下文、给出建议、甚至根据你的偏好调整方案。 这就是多模态AI的魔力。 第一章:什么是多模态AI? 1.1 从「单一感官」到「全感官」 传统AI(单模态): 1 2 3 4 5 6 7 # 只能处理文字 text_ai = GPT3() response = text_ai.chat("今天天气怎么样?") # ✅ 能回答 response = text_ai.chat("[图片: 窗外风景]") # ❌ 看不懂图片 多模态AI: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 # 能处理文字、图片、音频、视频 multimodal_ai = GPT4V() # 文字 ✅ response = multimodal_ai.chat("今天天气怎么样?") # 图片 ✅ response = multimodal_ai.chat( text="这是什么?", image="photo.jpg" ) # 音频 ✅ response = multimodal_ai.chat( text="这段音乐是什么风格?", audio="music.mp3" ) # 视频 ✅ response = multimodal_ai.chat( text="视频里的人在做什么?", video="video.mp4" ) 1.2 多模态的「模态」是什么? 模态(Modality) = 信息的表现形式 ...

2025-12-12 · 10 min · Chico

LangGraph 1.0 详解:构建生产级有状态Agent工作流

引言 2025年,LangGraph正式发布1.0版本,成为构建生产级AI Agent的首选框架。作为LangChain生态系统的核心组件,LangGraph提供了图状态编排(Graph-based Orchestration)能力,支持Agent的循环、分支、回溯和动态决策。更重要的是,它内置了持久化执行(Durable Execution)、**检查点(Checkpointing)和人工干预(Human-in-the-Loop)**等企业级功能。本文将深入探讨LangGraph的概念、工作原理、应用场景以及实践技巧。 知识图谱与LangChain Graph基础 什么是知识图谱? 知识图谱(Knowledge Graph)是一种结构化数据模型,用于表示实体(Entities)之间的关系(Relations)。它以图的形式组织信息,其中: 节点(Nodes):代表实体或概念 边(Edges):代表实体间的关系 graph LR A["艾伦·图灵"] -->|"发明"| B["图灵机"] A -->|"出生于"| C["英国"] A -->|"被誉为"| D["计算机科学之父"] B -->|"是"| E["理论计算模型"] LangChain Graph的定义与价值 LangChain Graph是LangChain框架中专注于知识图谱构建、存储和查询的模块集合。它将LLM的自然语言处理能力与图数据库的结构化表示结合,实现了: 自动从文本中提取实体和关系 构建和维护知识图谱 基于图结构进行复杂查询和推理 增强LLM应用的上下文理解和回答质量 LangChain Graph架构 LangChain Graph的整体架构可以通过以下图示来理解: flowchart TB subgraph "输入层" A["文本文档"] --> B["网页内容"] C["结构化数据"] --> D["用户查询"] end subgraph "处理层" E["实体提取 EntityExtractor"] F["关系提取 RelationExtractor"] G["知识图谱构建 KnowledgeGraphCreator"] end subgraph "存储层" H["图数据库 Neo4j/NetworkX"] I["向量存储 VectorStores"] end subgraph "应用层" J["图查询 GraphQuery"] K["图推理 GraphReasoning"] L["QA系统 GraphQAChain"] end A --> E B --> E C --> F D --> F E --> G F --> G G --> H G --> I H --> J H --> K I --> L 核心组件详解 1. 实体和关系提取器 这些组件负责从文本中识别实体和它们之间的关系: ...

2025-12-05 · 7 min · Chico