Yann LeCun不看好强化学习：「我确实更喜欢 MPC」

AIGC动态1年前 (2024)发布 almosthuman2014

2,326 0 0

文章摘要

Meta首席人工智能科学家Yann LeCun对强化学习（RL）持批评态度，认为其需要大量尝试，效率低下，与人类学习方式不符。LeCun更倾向于模型预测控制（MPC），这是一种利用数学模型实时优化控制系统的技术，自20世纪60年代以来已广泛应用于多个领域。MPC的最新发展是与机器学习技术集成，形成ML-MPC，使用机器学习算法估计系统模型、预测和优化控制动作，可能在控制性能和效率方面带来显著改进。

强化学习与模型预测控制是优化控制系统的两种技术，各有优缺点。强化学习通过反复试验学习，适合解决复杂动力学或未知系统模型问题，已应用于自动驾驶、无人机、机器人等领域。模型预测控制使用系统数学模型预测未来行为，产生控制操作以优化性能目标，适用于过程工业、电力系统、汽车控制等。

LeCun认为，如果问题能够很好地建模且具有可预测的动力学，MPC将发挥巨大作用。计算机科学家应深入挖掘信号处理和控制领域的潜力。但也有观点认为，求解精确的MPC模型困难，”拥有良好的世界模型”这一前提难以实现。此外，强化学习和MPC未必是二选一的关系，二者可能有各自的适用场景，已有研究将二者结合使用，取得了良好效果。

MPC的最新进展ML-MPC采用数据驱动模型，克服了传统MPC局限性，可实时适应变化条件，适用于动态和不可预测系统，提供更高准确性。但与传统MPC相比，ML-MPC需要大量数据训练，可解释性较差。计算机科学家还需在将MPC引入AI领域方面做出更多努力。

总之，强化学习与模型预测控制在优化控制系统领域各有优势和局限。LeCun更看好MPC及其与机器学习结合的前景，但实际应用中还需克服建模、数据量等挑战。两种技术可能并非非此即彼，结合使用或在各自适用场景发挥更大价值。计算机科学家应深入探索控制领域的潜力，推动MPC与AI技术的融合创新。