课程培训
强化学习与决策智能培训课程

强化学习与决策智能培训课程

 

培训对象: 面向AI算法工程师、机器人控制开发人员、自动驾驶工程师及对决策智能感兴趣的技术人员。也适合需要构建智能决策系统(机器人控制、游戏AI、资源调度)的研发团队。

 

培训目标: 深入理解强化学习的基本理论与核心算法,掌握从MDP建模到深度强化学习的完整知识体系。具备设计、实现和优化强化学习模型的能力,能够将强化学习应用于机器人控制、游戏博弈、智能调度等复杂决策场景

 

培训内容介绍:

  1. 强化学习基本概念:学习强化学习的基本框架(环境、智能体、状态、动作、奖励),理解探索与利用的权衡,掌握强化学习与监督学习、无监督学习的本质差异

  2. 马尔可夫决策过程(MDP):深入理解马尔可夫决策过程的数学形式化,学习状态转移概率、奖励函数、折扣因子的定义,掌握从MDP中计算最优策略的基本方法

  3. 值函数与贝尔曼方程:学习状态值函数(V值)与动作值函数(Q值)的定义与关系,深入理解贝尔曼期望方程与贝尔曼最优方程,掌握值函数在策略评估中的核心作用

  4. 动态规划方法:学习策略迭代(Policy Iteration)与值迭代(Value Iteration)两种动态规划方法,理解它们求解MDP的理论基础与收敛性保证

  5. 蒙特卡罗与时差分方法:掌握蒙特卡罗强化学习的采样与评估方法,学习时差分学习(TD)的更新规则,理解TD方法如何结合动态规划与蒙特卡罗的优势

  6. Q-Learning算法:深入讲解Q-Learning的算法原理与实现细节,学习探索策略(ε-greedy)的设置,掌握Q-Learning在表格型问题中的应用

  7. 深度Q网络(DQN):学习深度神经网络与值函数结合的方法,掌握DQN的两大核心技术(经验回放、目标网络),了解Double DQN、Dueling DQN、Prioritized Replay等经典改进

  8. 策略梯度方法:理解策略梯度方法的基本思想(直接优化策略而非值函数),学习REINFORCE算法的实现,掌握策略梯度相对于值函数方法的优势

  9. Actor-Critic方法:学习Actor-Critic框架如何融合策略梯度与值函数方法,掌握A2C、A3C算法的实现原理,理解优势函数在降低方差中的作用

  10. 近端策略优化(PPO):深入讲解PPO算法的设计动机与实现细节,学习PPO-Clip与PPO-Penalty两种形式,掌握PPO在连续控制任务中的应用

  11. 多智能体强化学习:了解多智能体强化学习的基本挑战(非平稳性、部分可观测、协作与竞争),学习MADDPG、QMIX等经典算法的设计思想

  12. 强化学习应用实战:通过机器人控制、自动驾驶决策或游戏AI等实际案例,完成从环境搭建、算法实现到效果评估的全流程强化学习项目





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>