课程一:AI 架构——从计算基础设施到大模型工程化
课程目标: 掌握构建高性能、可扩展AI 系统架构的核心原理,解决模型从实验室走向生产环境的“最后一公里”问题。
1. AI 计算基础设施架构
▪ 异构计算资源:GPU(A100/H800/H20)与 NPU 集群的选型与拓扑。
▪ 分布式训练架构:数据并行(DP)、模型并行 (MP)、流水线并行 (PP) 与 ZeRO 技术。
▪ 高性能存储方案:RDMA 网络、并行文件系统(Lustre/GPFS)在 AI 训练中的应用。
2. 大模型推理架构优化
▪ 推理引擎深度对比:vLLM, Text Generation Inference (TGI), NVIDIA Triton。
▪ 高并发推理优化:连续批处理(Continuous Batching)、PagedAttention 技术。
▪ 量化与加速:FP8/INT8/AWQ 量化原理,算子融合与显存优化。
3. 大模型应用架构(RAG & Agent)
▪ RAG 架构深度拆解:多级检索、重排序 (Rerank) 与混合搜索。
▪ 智能体(Agent) 架构:ReAct、Plan-and-Execute 模式,工具调用 (Tool Call) 的闭环设计。
4. MLOps 与 LLMOps 体系建设
▪ 自动化Pipeline:从数据标注、微调、评估到部署的 CI/CD。
▪ 模型监控与反馈:Token 消耗监控、响应延迟分析、人类反馈循环 (RLHF) 系统搭建。
课程二:大模型微调——全流程实战与领域适配
课程目标: 深入理解微调技术底座,掌握如何利用私有数据训练出具备行业专家能力的垂直模型。
1. 大模型微调理论基石
▪ 预训练、指令微调(SFT) 与偏好对齐 (DPO/PPO) 的逻辑关系。
▪ 参数高效微调(PEFT) 详解:LoRA, QLoRA, Adapter, Prefix Tuning。
2. 高质量微调数据集构建
▪ 指令工程:如何将业务文档转化为高质量的Q&A 指令对。
▪ 数据清洗与合成:利用LLM 自动生成与清洗训练数据(Self-Instruct 框架)。
▪ 多轮对话与长文本训练数据的格式处理。
3. 微调实战与参数调优
▪ 主流框架使用:LLaMA-Factory, DeepSpeed, Hugging Face PEFT 实战。
▪ 超参数调参指南:学习率、Rank 值、Alpha 值、Epochs 对模型收敛的影响。
▪ 微调过程中的显存管理:如何利用分布式技术在有限显存下微调千亿参数模型。
4. 模型评估与验证体系
▪ 客观指标测试:基准测试(Benchmarks) 与业务准确率测评。
▪ 主观评估:构建企业内部的Elo Rating 模型评估系统。
▪ 灾难性遗忘的预防与缓解策略。
课程三:数据分析——AI 驱动的深度洞察与智能决策
课程目标: 结合传统机器学习与大语言模型技术,提升技术人员利用数据解决复杂业务问题的能力。
1. 先进特征工程与数据预处理
▪ 自动特征工程(AutoFE) 与深度特征生成。
▪ 处理高维稀疏数据、缺失值与非平衡样本的进阶技巧。
2. AI 驱动的统计学建模
▪ 集成学习进阶:XGBoost, LightGBM, CatBoost 的参数调优与特征贡献度分析。
▪ 时间序列预测:从传统ARIMA 到基于 Transformer 的预测模型(如 Informer)。
3. 基于LLM 的智能数据分析 (Chat-with-Data)
▪ Text-to-SQL 架构设计:Schema 链接、SQL 纠错与复杂多表关联优化。
▪ 利用LLM 进行自动化探索性数据分析 (EDA) 与可视化图表生成。
▪ 结构化数据与非结构化数据的融合分析路径。
4. 因果推断与业务价值转化
▪ 从相关性到因果性:A/B Test 设计、倾向评分匹配 (PSM)。
▪ 归因分析:多渠道触达模型与贡献度度量。
课程四:数据治理——支撑 AI 的高质量资产体系
课程目标: 构建面向AI 的数据管理体系,解决“脏数据入,脏模型出”的痛点,确保数据合规与安全。
1. 面向AI 的数据治理架构 (Data-centric AI)
▪ 数据湖仓一体化架构:Iceberg/Hudi 在 AI 训练数据存储中的应用。
▪ 向量数据库管理:索引算法选择、元数据过滤与大规模向量扩缩容。
2. 数据质量全生命周期管理
▪ 数据标准化:多源异构数据的ETL 规范与一致性检查。
▪ 数据血缘分析:追踪AI 模型输入源头,实现问题回溯与变更评估。
▪ 数据清洗自动化:利用AI 自动识别与纠正脏数据、冗余数据。
3. 数据合规、安全与隐私保护
▪ 数据脱敏与匿名化技术:差分隐私(DP) 在 AI 训练中的应用。
▪ 联邦学习(Federated Learning):如何在数据不出域的情况下进行联合建模。
▪ AI 模型输入输出的合规性审计与护栏 (Guardrails) 建设。
4. 数据资产化与服务化
▪ 特征平台(Feature Store) 建设:实现特征的复用、共享与低延迟在线服务。
▪ 数据目录与元数据管理:让AI 研究员快速发现业务价值数据。授课老师
杨凯捷 AI应用实践专家
常驻地:北京
邀请老师授课:13439064501 陈助理

