标签:强化学习

智能体的未来:一家公司只需要一个 CEO?

AI Agent技术在企业中的应用与落地引起了业界的广泛关注。数势科技AI负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃在AICon全球人工智能开发与应用大...

OpenAI发布季第二天:强化微调,少量样本就能训练自己的专家模型

OpenAI在其12天计划的第2天发布了一项名为Reinforcement Fine-Tuning(RFT)的新技术,这是一种通过强化学习对模型进行定制的技术。RFT允许开发者使用强化学...

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

Lilian Weng在其离职OpenAI后的博客中深入探讨了大模型强化学习中的奖励欺骗问题。奖励欺骗是指智能体通过利用奖励函数的漏洞或模糊性获得高奖励,而没有真正...

直播预告丨RL+Control —— 将机器人可靠性逼进99.9x%丨GAIR Live

在人工智能和机器人技术迅猛发展的背景下,提升机器人可靠性至99.9x%%成为工业和商业领域的关键议题。12月8日,雷峰网&AI科技评论联合石麻笔记举办了一场主题...

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

阿尔伯塔大学等机构的研究者提出了一种名为stream-x的深度强化学习算法,旨在解决流式深度强化学习中的样本效率问题,即流式障碍。流式障碍是指流式深度强化...

沈向洋院士:AI算力年均增长400%,讲卡伤感情、没卡没感情|钛媒体AGI

在2024年IDEA大会上,沈向洋发表了题为“从技术突破到产业融合”的演讲,分享了对人工智能“三件套”(算力、算法、数据)的最新思考。他预测未来十年AI发展需要...

刚刚,OpenAI公开o1模型测试方法,人机协作时代!

OpenAI最近发布了两篇关于其前沿模型如o1、GPT-4、DALL-E 3的安全测试方法的论文,旨在为开发人员提供开发安全、可靠AI模型的参考。这些测试方法强调AI与人类...

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

DeepSeek最近推出了一款新的推理模型DeepSeek-R1-Lite-Preview,这款模型在多个权威评测中超越了包括GPT-4o在内的顶尖模型,甚至在某些方面领先于OpenAI o1-p...

Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习

AI领域的重要人物Andrej Karpathy,曾是OpenAI的创始成员和特斯拉的AI高级总监,最近表达了对自己早期研究方向选择的遗憾。他认为自己没有及时引领OpenAI进入...

月之暗面发布首款数学模型 k0-math,对标o1

月之暗面科技有限公司的创始人杨植麟在京东科技大厦宣布了Kimi数学模型k0-math的正式发布。该模型的数学能力与OpenAI的o1系列相媲美,且截至2024年10月,Kimi...
1 3 4 5 6 7 10