授课老师: 杨凯捷
常驻地: 北京

课程一:AI 架构——从计算基础设施到大模型工程化

课程目标: 掌握构建高性能、可扩展AI 系统架构的核心原理,解决模型从实验室走向生产环境的“最后一公里”问题。

1. AI 计算基础设施架构

▪ 异构计算资源:GPU(A100/H800/H20)与 NPU 集群的选型与拓扑。

▪ 分布式训练架构:数据并行(DP)、模型并行 (MP)、流水线并行 (PP) 与 ZeRO 技术。

▪ 高性能存储方案:RDMA 网络、并行文件系统(Lustre/GPFS)在 AI 训练中的应用。

2. 大模型推理架构优化

▪ 推理引擎深度对比:vLLM, Text Generation Inference (TGI), NVIDIA Triton。

▪ 高并发推理优化:连续批处理(Continuous Batching)、PagedAttention 技术。

▪ 量化与加速:FP8/INT8/AWQ 量化原理,算子融合与显存优化。

3. 大模型应用架构(RAG & Agent)

▪ RAG 架构深度拆解:多级检索、重排序 (Rerank) 与混合搜索。

▪ 智能体(Agent) 架构:ReAct、Plan-and-Execute 模式,工具调用 (Tool Call) 的闭环设计。

4. MLOps 与 LLMOps 体系建设

▪ 自动化Pipeline:从数据标注、微调、评估到部署的 CI/CD。

▪ 模型监控与反馈:Token 消耗监控、响应延迟分析、人类反馈循环 (RLHF) 系统搭建。

课程二:大模型微调——全流程实战与领域适配

课程目标: 深入理解微调技术底座,掌握如何利用私有数据训练出具备行业专家能力的垂直模型。

1. 大模型微调理论基石

▪ 预训练、指令微调(SFT) 与偏好对齐 (DPO/PPO) 的逻辑关系。

▪ 参数高效微调(PEFT) 详解:LoRA, QLoRA, Adapter, Prefix Tuning。

2. 高质量微调数据集构建

▪ 指令工程:如何将业务文档转化为高质量的Q&A 指令对。

▪ 数据清洗与合成:利用LLM 自动生成与清洗训练数据(Self-Instruct 框架)。

▪ 多轮对话与长文本训练数据的格式处理。

3. 微调实战与参数调优

▪ 主流框架使用:LLaMA-Factory, DeepSpeed, Hugging Face PEFT 实战。

▪ 超参数调参指南:学习率、Rank 值、Alpha 值、Epochs 对模型收敛的影响。

▪ 微调过程中的显存管理:如何利用分布式技术在有限显存下微调千亿参数模型。

4. 模型评估与验证体系

▪ 客观指标测试:基准测试(Benchmarks) 与业务准确率测评。

▪ 主观评估:构建企业内部的Elo Rating 模型评估系统。

▪ 灾难性遗忘的预防与缓解策略。

课程三:数据分析——AI 驱动的深度洞察与智能决策

课程目标: 结合传统机器学习与大语言模型技术,提升技术人员利用数据解决复杂业务问题的能力。

1. 先进特征工程与数据预处理

▪ 自动特征工程(AutoFE) 与深度特征生成。

▪ 处理高维稀疏数据、缺失值与非平衡样本的进阶技巧。

2. AI 驱动的统计学建模

▪ 集成学习进阶:XGBoost, LightGBM, CatBoost 的参数调优与特征贡献度分析。

▪ 时间序列预测:从传统ARIMA 到基于 Transformer 的预测模型(如 Informer)。

3. 基于LLM 的智能数据分析 (Chat-with-Data)

▪ Text-to-SQL 架构设计:Schema 链接、SQL 纠错与复杂多表关联优化。

▪ 利用LLM 进行自动化探索性数据分析 (EDA) 与可视化图表生成。

▪ 结构化数据与非结构化数据的融合分析路径。

4. 因果推断与业务价值转化

▪ 从相关性到因果性:A/B Test 设计、倾向评分匹配 (PSM)。

▪ 归因分析:多渠道触达模型与贡献度度量。

课程四:数据治理——支撑 AI 的高质量资产体系

课程目标: 构建面向AI 的数据管理体系,解决“脏数据入,脏模型出”的痛点,确保数据合规与安全。

1. 面向AI 的数据治理架构 (Data-centric AI)

▪ 数据湖仓一体化架构:Iceberg/Hudi 在 AI 训练数据存储中的应用。

▪ 向量数据库管理:索引算法选择、元数据过滤与大规模向量扩缩容。

2. 数据质量全生命周期管理

▪ 数据标准化:多源异构数据的ETL 规范与一致性检查。

▪ 数据血缘分析:追踪AI 模型输入源头,实现问题回溯与变更评估。

▪ 数据清洗自动化:利用AI 自动识别与纠正脏数据、冗余数据。

3. 数据合规、安全与隐私保护

▪ 数据脱敏与匿名化技术:差分隐私(DP) 在 AI 训练中的应用。

▪ 联邦学习(Federated Learning):如何在数据不出域的情况下进行联合建模。

▪ AI 模型输入输出的合规性审计与护栏 (Guardrails) 建设。

4. 数据资产化与服务化

▪ 特征平台(Feature Store) 建设:实现特征的复用、共享与低延迟在线服务。

▪ 数据目录与元数据管理:让AI 研究员快速发现业务价值数据。

授课老师

杨凯捷 AI应用实践专家

常驻地:北京
邀请老师授课:13439064501 陈助理

主讲课程:《AI赋能:DeepSeek助力办公效能提升实战课》 《生成式AI重构办公场景》 《AI自动化流程设计》 《AI大预言模型与多模态图片、视频生成》 《国内人工智能平台在工作中的实操应用》 《生成式人工智能图像处理平台的实操应用》 《GPT生成式人工智能的发展趋势展望》《华为企业业务渠道管理的方式与经验》 《互联网云业务生态战略与数字化变革》 《腾讯产业云计算解决方案的落地经验分享》

杨凯捷老师的课程大纲

微信小程序

微信扫一扫体验

扫一扫加微信

返回
顶部