📘 AI大模型全栈技术专家:从零到一实战学习大纲

AI大模型全栈技术专家:从零到一实战学习大纲
导言:AI 全栈工程师的认知地图
- 核心隐喻与概念对齐大脑:大语言模型(LLM)教科书:高质量数据集图书馆/外挂记忆:知识库(RAG)数字员工/实习生:智能体(Agent)
- 学习心法与避坑指南自顶向下(Top-Down)学习法:先用起来,再懂原理为什么“数据质量 > 算法模型”?破除“框架迷信”:重视底层思想与原生 API
第一阶段:认知启蒙与零代码体验(破冰篇)
目标:打破技术黑盒,掌握与AI对话的核心技巧,通过可视化工具建立全局体感。
1. AI 基础与大模型运作机制
- 1.1 概念扫盲:AI、机器学习、深度学习与生成式 AI(AIGC)的演进
- 1.2 大模型底层逻辑:Next Token Prediction(词语接龙)与概率分布
- 1.3 涌现能力(Emergent Abilities)与大模型的局限性(幻觉问题)
2. 提示词工程(Prompt Engineering)体系
- 2.1 基础结构:角色(Role)+ 上下文(Context)+ 任务(Task)+ 格式(Format)
- 2.2 核心技巧:Few-Shot Prompting(少样本提示)Chain of Thought (CoT,思维链提示)分隔符的使用与防注入(Prompt Injection)基础
- 2.3 常用提示词框架库(如 CRISPE、BROKE 框架)
3. 【实战1】零代码平台开发体验
- 3.1 主流平台介绍:Coze(扣子)、Dify、FastGPT
- 3.2 动手实践 A:拖拽搭建个人专属“生活助手”Bot
- 3.3 动手实践 B:上传一份 PDF,构建零代码“文档问答知识库”Bot
- 3.4 动手实践 C:为 Bot 配置“天气查询”与“搜索”插件(初探 Agent 概念)
第二阶段:编程基石与“数据炼丹术”(基础篇)
目标:掌握 AI 开发的必备代码能力,深刻理解高质量数据在 AI 生命周期中的决定性作用。
4. AI 开发必备 Python 速成
- 4.1 Python 基础语法与核心数据结构(List、Dict、Set)
- 4.2 数据处理神器:Pandas 基础入门
- 4.3 网络与数据交换:Requests 库与 JSON 格式解析
- 4.4 虚拟环境管理(Conda / Venv)
5. 调用云端大脑:大模型 API 开发
- 5.1 注册与获取 API Key(OpenAI、通义千问、智谱清言等)
- 5.2 核心参数解析:Temperature(温度)、Top-P、Max Tokens
- 5.3 API 调用实战:单次对话与多轮对话(记忆管理)
- 5.4 流式输出(Streaming)的原理与代码实现
6. 核心基建:构建高质量数据集
- 6.1 数据集在 AI 中的三大应用场景(预训练、微调、RAG 检索)
- 6.2 数据的获取与爬虫基础(BeautifulSoup、Playwright)
- 6.3 数据清洗与格式化(脏活累活):去重、去噪、去除 HTML 标签构建 JSONL (JSON Lines) 标准格式
- 6.4 数据标注与 QA 对生成指令微调(Instruction Tuning)数据集长什么样?利用大模型辅助生成 QA 数据(Self-Instruct 技术)
- 6.5 【实战2】垂直领域数据提纯:爬取 50 篇行业公号文章,清洗并构建 1000 条高质量问答对(QA)数据集。
第三阶段:外挂大脑——知识库与 RAG 详解(核心应用篇)
目标:彻底搞懂并手写检索增强生成(RAG)系统,解决大模型的“幻觉”与私有数据问题。
7. RAG(检索增强生成)原理解析
- 7.1 为什么需要 RAG?(RAG vs Fine-tuning 微调的选型对比)
- 7.2 RAG 核心五步:解析 -> 切块 -> 向量化 -> 检索 -> 生成
8. 向量与向量数据库(Vector DB)
- 8.1 万物皆可向量化:Embedding 模型原理与余弦相似度(Cosine Similarity)
- 8.2 轻量级本地向量库实战:Chroma / FAISS
- 8.3 企业级向量库架构简介:Milvus / Qdrant
9. 文档解析与切片(Chunking)艺术
- 9.1 非结构化数据解析难题(PDF、Word、复杂表格读取)
- 9.2 切片策略(Chunk Strategy):按固定长度切片(Fixed-size)按语义切片(按段落、句号分隔)重叠度(Overlap)的设置与影响
10. 高阶 RAG 技术(Advanced RAG)
- 10.1 检索前优化:Query 改写(Query Rewrite)、多路召回
- 10.2 检索中优化:混合检索(BM25 关键词检索 + 向量检索)
- 10.3 检索后优化:重排序(Reranker 模型)原理与接入
- 10.4 【实战3】从零手写代码:基于企业《员工手册》和前沿 Reranker 技术,搭建高精度 HR 知识库问答系统。
第四阶段:行动派——智能体(Agent)开发(进阶篇)
目标:让 AI 具备“思考+使用工具”的能力,从“文本生成器”升级为“任务执行者”。
11. Agent 核心架构深度解剖
- 11.1 Agent 四大组件:Profile(角色认知)、Memory(长短期记忆)、Planning(规划思考)、Action(工具行动)
- 11.2 ReAct(Reason + Act)推理框架详解解析
12. 赋予 AI 手脚:函数调用(Function Calling / Tool Use)
- 12.1 Function Calling 的底层原理与 JSON Schema 编写规范
- 12.2 如何给 API 写“说明书”(让大模型准确理解工具用途)
- 12.3 实战接入外部 API(如:天气查询、股票接口、数据库查询)
13. 主流 Agent 开发框架应用
- 13.1 LangChain 框架:核心组件:Model、Prompt、Output ParserLCEL(LangChain 表达式语言)语法链式调用
- 13.2 LlamaIndex 框架:以数据和 RAG 为核心的 Agent 搭建
- 13.3 【实战4】开发“超级数据分析师 Agent”:自然语言提问 -> Agent 自行生成 SQL -> 查询本地数据库 -> 绘制并输出数据分析图表。
14. 多智能体协作(Multi-Agent)
- 14.1 单体 Agent 的瓶颈与多智能体分工哲学
- 14.2 协作模式:接力模式、辩论模式、群聊模式
- 14.3 主流多 Agent 框架体验:AutoGen 或 MetaGPT 基础入门
第五阶段:开源生态与私有化部署(底层掌控篇)
目标:摆脱对外部商业 API 的依赖,掌握本地部署、模型微调技术,保障数据绝对安全。
15. 开源大模型生态与格式
- 15.1 开源模型双巨头:Llama 3 家族与 Qwen(通义千问)家族解读
- 15.2 模型托管平台:Hugging Face 与 魔搭社区(ModelScope)
- 15.3 硬件常识与模型格式:显存计算公式、GGUF/GPTQ/AWQ 量化技术
16. 模型本地化运行与生产级部署
- 16.1 小白本地运行神器:Ollama 安装与配置
- 16.2 工业级推理引擎:vLLM 架构解析(PagedAttention 技术)
- 16.3 将本地模型封装为兼容 OpenAI 格式的 API 接口
17. 模型参数高效微调(PEFT)
- 17.1 微调(Fine-tuning)基础:全量微调 vs 高效微调
- 17.2 LoRA(Low-Rank Adaptation)技术原理解俗
- 17.3 微调工具链实战:使用 LLaMA-Factory 进行可视化微调
- 17.4 【实战5】利用第二阶段清洗的高质量数据集,在单张消费级显卡(如 RTX 4090)上,微调训练一个具备“独特人物性格(如鲁迅语气)”的私有大模型。
第六阶段:全栈架构师、测试评估与前沿落地(专家篇)
目标:具备企业级复杂 AI 项目的架构设计、成本控制、系统评估及上线运维能力。
18. AI 系统的测试与评估
- 18.1 RAG 系统评估标准:RAGAS 框架(忠实度、答案相关性、上下文精度等)
- 18.2 大模型评估大模型:LLM-as-a-Judge 裁判机制的设计
19. 生产环境的挑战与架构优化
- 19.1 成本控制:Token 消耗计算与缓存技术(如 GPTCache)
- 19.2 安全与伦理:Prompt 注入防御、敏感词过滤拦截机制
- 19.3 性能优化:并发处理、流式响应优化与断线重连机制
20. 【最终毕业项目】全栈实战(3选1,需完成前后端联调部署)
- 【方向A:商业业务线】行业深度研报自动生成 Agent集成多 Agent 架构,包含:搜索检索、PDF研报读取、关键数据提取、长文大纲规划与排版生成。
- 【方向B:企业基建线】企业级私有化全栈知识库系统(Mini-Dify)全栈开发(前端 Vue/React + 后端 Python/FastAPI)。功能涵盖:用户登录权限管理、文档上传解析、自定义分块、混合检索、多轮问答对话界面。
- 【方向C:个人提效线】全天候个性化数字分身 Assistant接入微信/飞书/钉钉生态。具备长期记忆数据库,结合外部 API 实现:日程自动管理、邮件定时总结归纳、个人知识库随时检索。
文章版权声明:除非注明,否则均为边学边练网络文章,版权归原作者所有