杨凯捷:AI大模型与数据治理

147 阅读 0 点赞更新日期2026-05-14

授课老师： 杨凯捷

常驻地: 北京

擅长领域: 数字化转型人工智能

课程一：AI 架构——从计算基础设施到大模型工程化

课程目标：掌握构建高性能、可扩展AI 系统架构的核心原理，解决模型从实验室走向生产环境的“最后一公里”问题。

1. AI 计算基础设施架构

▪ 异构计算资源：GPU（A100/H800/H20）与 NPU 集群的选型与拓扑。

▪ 分布式训练架构：数据并行(DP)、模型并行 (MP)、流水线并行 (PP) 与 ZeRO 技术。

▪ 高性能存储方案：RDMA 网络、并行文件系统（Lustre/GPFS）在 AI 训练中的应用。

2. 大模型推理架构优化

▪ 推理引擎深度对比：vLLM, Text Generation Inference (TGI), NVIDIA Triton。

▪ 高并发推理优化：连续批处理(Continuous Batching)、PagedAttention 技术。

▪ 量化与加速：FP8/INT8/AWQ 量化原理，算子融合与显存优化。

3. 大模型应用架构(RAG & Agent)

▪ RAG 架构深度拆解：多级检索、重排序 (Rerank) 与混合搜索。

▪ 智能体(Agent) 架构：ReAct、Plan-and-Execute 模式，工具调用 (Tool Call) 的闭环设计。

4. MLOps 与 LLMOps 体系建设

▪ 自动化Pipeline：从数据标注、微调、评估到部署的 CI/CD。

▪ 模型监控与反馈：Token 消耗监控、响应延迟分析、人类反馈循环 (RLHF) 系统搭建。

课程二：大模型微调——全流程实战与领域适配

课程目标： 深入理解微调技术底座，掌握如何利用私有数据训练出具备行业专家能力的垂直模型。

1. 大模型微调理论基石

▪ 预训练、指令微调(SFT) 与偏好对齐 (DPO/PPO) 的逻辑关系。

▪ 参数高效微调(PEFT) 详解：LoRA, QLoRA, Adapter, Prefix Tuning。

2. 高质量微调数据集构建

▪ 指令工程：如何将业务文档转化为高质量的Q&A 指令对。

▪ 数据清洗与合成：利用LLM 自动生成与清洗训练数据（Self-Instruct 框架）。

▪ 多轮对话与长文本训练数据的格式处理。

3. 微调实战与参数调优

▪ 主流框架使用：LLaMA-Factory, DeepSpeed, Hugging Face PEFT 实战。

▪ 超参数调参指南：学习率、Rank 值、Alpha 值、Epochs 对模型收敛的影响。

▪ 微调过程中的显存管理：如何利用分布式技术在有限显存下微调千亿参数模型。

4. 模型评估与验证体系

▪ 客观指标测试：基准测试(Benchmarks) 与业务准确率测评。

▪ 主观评估：构建企业内部的Elo Rating 模型评估系统。

▪ 灾难性遗忘的预防与缓解策略。

课程三：数据分析——AI 驱动的深度洞察与智能决策

课程目标：结合传统机器学习与大语言模型技术，提升技术人员利用数据解决复杂业务问题的能力。

1. 先进特征工程与数据预处理

▪ 自动特征工程(AutoFE) 与深度特征生成。

▪ 处理高维稀疏数据、缺失值与非平衡样本的进阶技巧。

2. AI 驱动的统计学建模

▪ 集成学习进阶：XGBoost, LightGBM, CatBoost 的参数调优与特征贡献度分析。

▪ 时间序列预测：从传统ARIMA 到基于 Transformer 的预测模型（如 Informer）。

3. 基于LLM 的智能数据分析 (Chat-with-Data)

▪ Text-to-SQL 架构设计：Schema 链接、SQL 纠错与复杂多表关联优化。

▪ 利用LLM 进行自动化探索性数据分析 (EDA) 与可视化图表生成。

▪ 结构化数据与非结构化数据的融合分析路径。

4. 因果推断与业务价值转化

▪ 从相关性到因果性：A/B Test 设计、倾向评分匹配 (PSM)。

▪ 归因分析：多渠道触达模型与贡献度度量。

课程四：数据治理——支撑 AI 的高质量资产体系

课程目标： 构建面向AI 的数据管理体系，解决“脏数据入，脏模型出”的痛点，确保数据合规与安全。

1. 面向AI 的数据治理架构 (Data-centric AI)

▪ 数据湖仓一体化架构：Iceberg/Hudi 在 AI 训练数据存储中的应用。

▪ 向量数据库管理：索引算法选择、元数据过滤与大规模向量扩缩容。

2. 数据质量全生命周期管理

▪ 数据标准化：多源异构数据的ETL 规范与一致性检查。

▪ 数据血缘分析：追踪AI 模型输入源头，实现问题回溯与变更评估。

▪ 数据清洗自动化：利用AI 自动识别与纠正脏数据、冗余数据。

3. 数据合规、安全与隐私保护

▪ 数据脱敏与匿名化技术：差分隐私(DP) 在 AI 训练中的应用。

▪ 联邦学习(Federated Learning)：如何在数据不出域的情况下进行联合建模。

▪ AI 模型输入输出的合规性审计与护栏 (Guardrails) 建设。

4. 数据资产化与服务化

▪ 特征平台(Feature Store) 建设：实现特征的复用、共享与低延迟在线服务。

▪ 数据目录与元数据管理：让AI 研究员快速发现业务价值数据。

授课老师

杨凯捷

杨凯捷 AI应用实践专家

常驻地：北京
邀请老师授课：13439064501 陈助理

主讲课程：《AI赋能：DeepSeek助力办公效能提升实战课》《生成式AI重构办公场景》《AI自动化流程设计》《AI大预言模型与多模态图片、视频生成》《国内人工智能平台在工作中的实操应用》《生成式人工智能图像处理平台的实操应用》《GPT生成式人工智能的发展趋势展望》《华为企业业务渠道管理的方式与经验》《互联网云业务生态战略与数字化变革》《腾讯产业云计算解决方案的落地经验分享》

杨凯捷老师的课程大纲

AI大模型与数据治理

从“+AI”到“AI-First”：基金业高层的战略布局与组织重构

AI赋能基金业：从“工具使用者”到“智能指挥官”的全员进阶

AI 驱动全栈开发” 1天实战课程

AI智能体企业应用实战

Vibe-Coding企业赋能

Python机器学习实战赋能企业数据分析

AI技术赋能企业创新-研发与产品经理高级研修班

智能体工程化课程

OpenClaw 企业级落地实战：1天掌握AI助手效率提升全流程

DeepSeek银行智能转型咨询

DeepSeek助力国企酒店业：办公提效与AI增长实战

本文分类：管理运营
本文标签：AI大模型数据治理杨凯捷
浏览次数：147 次浏览
发布日期：2026-05-14 20:39:50
本文链接：https://www.zms.org.cn/gl_kg/19966.html

上一篇 > AI智能体企业应用实战
下一篇 > 企业出海礼宾致远-外交外事礼宾全场景赋能与跨文化融合实战

微信小程序

微信扫一扫体验

扫一扫加微信