AI 的演进路径清晰可见:从最初的 Chatbot 聊天对话框,逐步发展为支持联网、工具调用(Tools)与 MCP 协议,再到如今可自定义工作流的 Agent 智能体。Agent 的出现,使 AI 真正落地于各类真实业务场景,这是一个持续进化与实践的过程。
以程序员最熟悉的 **AI 编程助手** 为例,仅在过去一年内,AI Agent 已广泛应用于代码生成、调试与优化。Dify、Coze 等低代码平台也支持用户通过可视化方式手动配置工作流,快速构建个性化 Agent 并发布使用。
2024 年 8 月底,国家发布“人工智能+”行动意见,预示着未来十年,无论在中国还是全球,AI 应用将加速渗透各行各业,遍地开花。
我将持续深耕 AI Agent 领域,将自身擅长的面试辅导、算法刷题、简历优化、技术教程等场景全面 AI 赋能,借助智能体提升服务效率,惠及更多用户。
本文从前端开发者的视角,系统梳理开发 AI Agent 所需掌握的核心知识体系,供同行参考。
* * *
1\. LLM(大语言模型)
AI 的基础是 **LLM(Large Language Model)**,如 ChatGPT、Gemini、Claude、DeepSeek、Qwen、Grok、Llama 等。常见使用方式包括:
* 在线调用 API(通常按 token 计费)
* 本地部署,内网私有化运行
核心原理
当前所有 LLM 的本质可简化理解为:**预测下一个词**。
* LLM 并非“理解”人类语言,而是基于海量互联网数据训练,进行概率性“补全”。
* 模型参数如同“记忆单元”,类似人脑神经元;参数越多(训练与推理成本越高),补全越精准。
* 示例:输入“猴子喜欢吃”,模型基于训练数据计算,“香蕉”概率最高,即返回该词。
* 写诗、编程、绘图等能力,本质也是基于 prompt 的结构化补全。
交互模式
进阶技术
* **MoE(Mixture of Experts)**:将超大模型拆分为多个子专家模型,每次推理仅激活部分,显著降低运行成本。
* **微调(Fine-tuning)**:仅调整少量参数,改变模型在特定领域的预测倾向。
> **关键认知**:Agent 与 Tool 调用本质上也是“补全”——模型根据 prompt 中的工具描述与参数结构,预测应调用哪些工具。
* * *
2. Prompt Engineering(提示词工程)
AI 的输出质量高度依赖于 prompt 设计。模糊的提示必然导致模糊的结果。
### 实践要点
* **领域约束**:如 GitHub Copilot 限定于编程领域,拒绝回答非相关问题。
* **CoT(Chain-of-Thought)**:通过“让我们一步步思考”等引导语,促使模型按逻辑链推理。
* **输出规范**:明确要求 JSON、Markdown 等格式,或限定选项范围。
* **工程化处理**:实际开发中,用户输入通常需经“转述包装”后再传入 LLM,而非直接透传。可借助 AI 生成高质量 prompt,或使用在线工具辅助设计。
> ✅ **提示**:Prompt Engineering 本质是“与 AI 高效沟通的艺术”,非玄学技能,易于掌握。
* * *
3. LangChain.js
**LangChain.js** 是前端开发者使用 Node.js 构建 AI 应用的首选框架,生态完善:
* **LangGraph**:可视化定义 Agent 工作流,支持复杂决策逻辑。
* **LangSmith**:调试、追踪与分析 Agent 运行过程,提升可观测性。
* * *
4. RAG(检索增强生成)
**RAG(Retrieval-Augmented Generation)** 是结合外部知识库提升 AI 回答准确性的关键技术。
### 核心流程
1. **向量化**:将文档切片并转换为高维向量(float 数组),存入向量数据库。
2. **检索**:用户提问时,将问题向量化,在库中检索语义相似片段。
3. **生成**:将检索结果作为上下文,与 prompt 一并送入 LLM 生成最终答案。
### 向量(Vector)理解
* 向量即“多维坐标”,文本/图片可映射为数百维浮点数组。
* 通过**余弦相似度**或**欧氏距离**计算向量间距离,即语义相似度。
* 与传统关键词搜索(如 ElasticSearch)不同,向量支持**语义匹配**(如“教程”≈“课程”)。
> **技术选型建议**:
> * 开发阶段:Chroma(轻量、易集成)
> * 生产部署:Pinecone / Supabase Vector(提供免费额度)
* * *
5. Agent(智能体)
Agent 是融合多种能力的综合体,核心组件包括:
> ️ **示例**:Flowise(类似 Dify/Coze)提供的 RAG Agent 工作流配置界面,直观展示节点连接与工具调用逻辑。
* * *
6. MCP(Model Context Protocol)
**MCP** 是规范大模型与外部服务交互的协议,实现工具调用的标准化。
### 应用场景
* **使用现有 MCP Server**:如编程场景常用代码补全、测试生成等服务(参考博客:[编程常用的 MCP Server](https://chat.qwen.ai/c/guest#))。
* **自研 MCP 能力**:
* 开发 MCP Server:暴露自定义工具能力
* 开发 MCP Client:集成第三方服务
* 参考实践:[Node.js + DeepSeek 开发 MCP Server 与 Client 踩坑记录](https://chat.qwen.ai/c/guest#)
* * *
7. 多模态(Multimodal)
现代 AI 应用已超越纯文本,全面支持多模态输入与输出:
### Artifact 机制
* 某些模型(如 Claude)支持以 **Artifact** 形式直接渲染生成内容(如 HTML 网页),并提供预览与发布能力。
* 不同模型对模态的支持程度与 API 调用方式各异,需针对性适配。
* * *
8. 前沿方向(持续演进中)
AI Agent 技术仍在快速发展,以下方向值得关注:
* **Multi-agent 架构**:多个智能体协作完成复杂任务
* **A2A 协议**:Agent 间标准化通信机制
* **Context Engineering**:精细化管理上下文注入策略

* **AG-UI 协议**:规范 Agent 与前端界面的交互协议
* * *