我对强化学习十分感兴趣,深耕强化学习多年,适逢2024年的图灵奖颁给强化学习领域的大牛,所以趁此机会谈谈自己对2024年的图灵奖的若干心得体会。
近期,美国计算机协会(ACM)宣布,Andrew Barto(安德鲁·巴尔托) 和 Richard Sutton(理查德·萨顿) 荣获2024年度图灵奖,以表彰他们在强化学习领域奠定的概念与算法基础。
图灵奖是计算机领域的最高荣誉奖项,由ACM于1966年设立,旨在表彰对计算机技术做出持久和重大贡献的个人。该奖项以计算理论奠基人、英国数学家艾伦·图灵命名,奖金高达100万美元,由 Google 公司提供资助。
Richard Sutton 被誉为「强化学习之父」,他是 Andrew Barto 的博士学生,两人是师徒关系。
目前,Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的荣休教授。而 Sutton 则在阿尔伯塔大学担任计算机科学教授,同时也是 Keen Technologies 的研究科学家。
从20世纪80年代起, Barto和Sutton通过一系列论文提出了强化学习的核心思想,构建了其数学基础,并开发了关键算法,使其成为智能系统研究中最重要的方法之一。
AI 领域的核心目标是构建智能体(agent),即能够感知环境并采取行动的实体。 而强化学习(Reinforcement Learning,RL),正是智能体根据环境反馈的奖励信号,学习如何做出更优决策的过程。简单来说,就像训练宠物一样——好的行为给予奖励,从而增强这种行为的出现概率。
强化学习的应用还涵盖了多个领域,包括网络拥塞控制、芯片设计、互联网广告优化、全球供应链优化、提升聊天机器人的行为和推理能力以及改进计算机科学中的经典问题,如矩阵乘法算法等。
早在 1950 年,图灵本人在其著名论文《计算机机器与智能》中就探讨了基于奖励和惩罚的机器学习方法。几年后,Arthur Samuel 开发了能通过自我对弈学习的跳棋程序。Arthur Samuel 是一位计算机科学先驱,他在1959年首次提出了“机器学习”这一术语,并开发了一个跳棋程序,能够通过自我对弈学习并提升棋力。这是早期机器学习应用的经典案例,也是机器学习领域的一个重要里程碑。
但是,随后几十年,这一方向的进展相当有限。直到 20 世纪 80 年代初,受心理学研究的启发,Barto 和他的博士生 Sutton 开始将强化学习正式确立为一个通用问题框架,为这一领域的发展奠定了理论基础。
尽管基础理论早在几十年前就已提出,但强化学习的实际应用在过去 15 年才取得重大突破。这一进展主要源于强化学习与深度学习(由 2018 年图灵奖得主 Bengio、Hinton 和 LeCun 开创)的结合,催生了深度强化学习技术。
深度强化学习技术最具代表性的成功案例莫过于 AlphaGo 在 2016 年和2017年连续战胜世界顶级围棋选手。近年来,另一项重大突破是 ChatGPT 的诞生。ChatGPT 是一个大语言模型(LLM),其训练分为两个阶段,其中第二阶段采用了一种名为人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)的方法,使模型能够更好地符合人类的期望。
DeepSeek 也在其模型开发中广泛使用了强化学习技术。DeepSeek-R1-Zero 是一种完全基于大规模强化学习训练的模型,没有经过监督微调(SFT)作为初步步骤。这种模型展示了强大的推理能力,能够通过增加推理时间来解决复杂的任务。此外,DeepSeek 还引入了群体相对策略优化(GRPO)技术,通过强化学习与组内相对奖励机制优化模型。这种方法使得模型在数学推理、代码生成等复杂任务中表现出类人的逻辑推理能力
Andrew Barto和Richard Sutton共同开发了许多强化学习的基本算法,其中最重要的贡献之一是时序差分学习(Temporal Difference Learning)。时序差分学习结合了蒙特卡罗方法和动态规划,能够在无需完整轮回的情况下在线学习,极大的提升了智能体的学习效率。时序差分学习的提出,推动了强化学习的发展,让停滞数年之久的强化学习焕发了新的生命力,其影响十分深远。此外,他们还提出了策略梯度方法(Policy Gradient Methods),又进一步推动了强化学习的发展。
除了算法贡献,他们合著的教材《强化学习:导论》(Reinforcement Learning: An Introduction,1998)同样具有深远影响。这本书至今仍是该领域的标准参考文献,被引用超过 75000 次,成为该领域标准参考文献,培养了无数研究者。
比起自己的老师,Richard Sutton更年轻、更有创造力,被人称为「强化学习之父」,他的贡献十分重要,深远且广泛,主要包括11项重要的贡献:
(1)马尔可夫决策过程(MDP)。Sutton 在 MDP 的理论和应用方面做出了重要贡献,为强化学习提供了坚实的数学基础。虽然 Richard Sutton 的研究并未从根本上改变马尔可夫决策过程(MDP)的核心定义,而是在其基础上进行了扩展和优化,使其更适用于实际应用,特别是在强化学习领域。以下是 Sutton 的研究与传统 MDP 的主要区别和贡献:
(a)传统 MDP 通常依赖环境模型(如转移概率和奖励函数),而 Sutton 的研究侧重于无模型方法,智能体无需预先知道环境模型,通过与环境的交互直接学习最优策略。时序差分学习(TD Learning)和 Q-learning 是这类方法的代表。
(b)传统 MDP 假设状态空间和动作空间是离散且有限的,Sutton 引入了函数逼近技术(如神经网络),使 MDP 能够处理高维和连续状态空间,扩展了其应用范围。
(c)传统 MDP 通常通过值函数间接优化策略,而 Sutton 的研究推动了直接优化策略的策略梯度方法,适用于连续动作空间和复杂策略。
(d)传统 MDP 通常通过完整的轮回才能在线更新值函数,Sutton 提出的时序差分学习结合了蒙特卡罗方法和动态规划的优点,能够在无需完整轮回的情况下在线更新值函数,显著提高了学习效率。
(2)时序差分学习(Temporal Difference Learning)。Sutton 提出了时序差分学习(TD Learning),这是一种结合了蒙特卡罗方法和动态规划的无模型强化学习算法。TD Learning 通过当前估计值更新未来估计值,显著提高了学习效率,成为 Q-learning 和 SARSA 等算法的基础。
(3)Q-learning算法。Sutton 与 Chris Watkins 合作提出了 Q-learning 算法,这是一种无模型的强化学习算法,广泛应用于各种实际任务。
(4)策略梯度方法(Policy Gradient Methods)。Sutton 在策略梯度方法的研究中发挥了关键作用,这些方法通过优化策略参数直接最大化期望回报,适用于连续动作空间和高维问题,推动了深度强化学习的发展。Sutton 在2000年的论文《Policy Gradient Methods for Reinforcement Learning with Function Approximation》中正式提出了策略梯度定理,为策略梯度方法提供了理论基础。
(5)Actor-Critic 方法。Sutton 与 Andrew Barto 和 Ronald Williams 合作提出了 Actor-Critic 架构,结合了值函数和策略梯度方法,提升了算法的稳定性和效率。
(6)资格迹(Eligibility Traces)。Sutton 提出了资格迹,用于在 TD Learning 中更有效地分配信用,平衡即时更新和长期回报,提升了算法的学习速度和稳定性。
(7)函数逼近与深度强化学习。Sutton 将函数逼近引入强化学习,解决了高维状态空间下的“维度灾难”问题,使得强化学习能够应用于更复杂的实际问题。Sutton 的工作为深度强化学习的发展奠定了基础,许多现代深度强化学习算法(如 DQN、A3C 等)都受到了他的理论启发。
(8)探索与利用的平衡。Sutton 在探索与利用的平衡问题上做出了重要贡献,提出了多种策略,如 ε-贪婪策略,帮助智能体在学习过程中有效权衡探索新行为和利用已知信息。
(9)强化学习教材与理论框架。Sutton 与 Andrew Barto 合著的《Reinforcement Learning: An Introduction》是强化学习领域的经典教材,系统介绍了强化学习的核心概念,推动了该领域的普及和发展。
(10)教育与培养人才。Sutton 在学术界积极推广强化学习,培养了许多优秀的研究人才,推动了强化学习领域的快速发展。
(11)开源项目。Sutton 参与和推动了多个开源项目,如 OpenAI 和 DeepMind,促进了强化学习技术的普及和应用。
总之,Richard Sutton 在强化学习领域的贡献是多方面的,从理论奠基到算法创新,再到教育与推广,他的工作对强化学习的发展产生了深远影响,他的贡献无疑为计算机科学和人工智能领域带来了巨大的进步,所以他被世人尊称为「强化学习之父」。