标签:模型泛化
离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞
Lilian Weng在其离职OpenAI后的博客中深入探讨了大模型强化学习中的奖励欺骗问题。奖励欺骗是指智能体通过利用奖励函数的漏洞或模糊性获得高奖励,而没有真正...
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型在生成看似符合常识的视频方面取得了进展,但业界对其是否真正理解物理规律存在争议。图灵奖得主Yann LeCun认为,基于文本提示生成的逼真视频并...