标签:强化学习
与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀
NeurIPS 2024,机器学习领域的顶级会议,在加拿大温哥华成功闭幕。会议共接收了15671篇有效论文投稿,同比增长27%,最终接收率为25.8%。会议期间,一项名为“...
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
硅谷巨头们在大模型Scaling Law的争议中采取了不同策略。谷歌推出了新一代模型Gemini 2.0 Flash,而OpenAI展示了其“满血版”o1和o1 pro mode,证明模型能力未...
对话超参数:Agent 诞生于游戏,最终会走进生活
超参数科技,成立于2019年,专注于AI技术在游戏领域的应用。公司创始人刘永升,曾负责腾讯围棋AI“绝艺”和王者荣耀AI“绝悟”项目,对AI技术充满信心。他观察到A...
Meta 利用强化学习优化数据中心的可持续性
Meta公司在其数据中心采用了强化学习(RL)技术,以优化环境控制策略,减少能源消耗和用水量,应对气候变化挑战。强化学习是机器学习和最优控制领域的一个分...
智能体的未来:一家公司只需要一个 CEO?
AI Agent技术在企业中的应用与落地引起了业界的广泛关注。数势科技AI负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃在AICon全球人工智能开发与应用大...
OpenAI发布季第二天:强化微调,少量样本就能训练自己的专家模型
OpenAI在其12天计划的第2天发布了一项名为Reinforcement Fine-Tuning(RFT)的新技术,这是一种通过强化学习对模型进行定制的技术。RFT允许开发者使用强化学...
离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞
Lilian Weng在其离职OpenAI后的博客中深入探讨了大模型强化学习中的奖励欺骗问题。奖励欺骗是指智能体通过利用奖励函数的漏洞或模糊性获得高奖励,而没有真正...
直播预告丨RL+Control —— 将机器人可靠性逼进99.9x%丨GAIR Live
在人工智能和机器人技术迅猛发展的背景下,提升机器人可靠性至99.9x%%成为工业和商业领域的关键议题。12月8日,雷峰网&AI科技评论联合石麻笔记举办了一场主题...
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐
阿尔伯塔大学等机构的研究者提出了一种名为stream-x的深度强化学习算法,旨在解决流式深度强化学习中的样本效率问题,即流式障碍。流式障碍是指流式深度强化...
沈向洋院士:AI算力年均增长400%,讲卡伤感情、没卡没感情|钛媒体AGI
在2024年IDEA大会上,沈向洋发表了题为“从技术突破到产业融合”的演讲,分享了对人工智能“三件套”(算力、算法、数据)的最新思考。他预测未来十年AI发展需要...