标签：模型泛化

离职OpenAI后Lilian Weng博客首发！深扒RL训练漏洞，业内狂赞

Lilian Weng在其离职OpenAI后的博客中深入探讨了大模型强化学习中的奖励欺骗问题。奖励欺骗是指智能体通过利用奖励函数的漏洞或模糊性获得高奖励，而没有真正...

AIGC动态

9个月前

LeCun赞转！类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究揭秘

视频生成模型在生成看似符合常识的视频方面取得了进展，但业界对其是否真正理解物理规律存在争议。图灵奖得主Yann LeCun认为，基于文本提示生成的逼真视频并...

AIGC动态

10个月前