标签:强化学习
谷歌提出大规模ICL方法——强化和无监督
本文主要讨论了大语言模型(LLM)在自然语言处理任务中的发展,特别是在少样本学习和上下文学习(ICL)方面的进展。文章首先指出,尽管LLM在少样本学习中表现...
英伟达开源大模型对齐框架—NeMo-Aligner
本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner,旨在帮助开发人员提升大语言模型(LLM)的安全性能和稳定输出。随着大模型产品如ChatGPT和Midjourney...
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
这篇文章报道了斯坦福大学团队最新的研究成果,该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法,即在上下文多臂赌博机设...
港大张清鹏团队提出个性化癌症治疗新思路:用 AI 控制癌细胞进化过程
前列腺癌是全球男性中发病率较高的癌症之一,其治疗方法包括激素疗法,如雄激素剥夺疗法(ADT)。然而,耐药性的发展常常导致治疗失败,因此,研究人员一直在...
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台,这是一个专为强化学习与人类反馈(RLHF)量身定制的综合系统实施方案。Uni-R...
400米2分34秒破纪录!伯克利双足机器人「接管」人类
UC伯克利的双足机器人Cassie在HYBRID ROBOTICS研究团队的努力下,以惊人的速度跑完了400米,用时仅2分34秒,并且完成了1.4米的跳远。Cassie的独特之处在于只...
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
新智元报道了一种新型强化学习框架StepCoder,由复旦大学、华中科技大学和皇家理工学院的研究人员共同提出。StepCoder旨在解决大型语言模型(LLMsCCCS);2) ...
Fine-tuning在垂直领域的最佳实践指南
摘要总结:本文介绍了深度学习和机器学习中的一个重要概念——Fine-tuning(模型微调)。Fine-tuning通常在预训练模型的基础上进行,通过在特定任务的数据集上...
机器狗界变形金刚来了:“人”狗之间灵活切换,可用前肢开门取物,瑞士团队出品
瑞士苏黎世联邦理工学院(ETH)推出了一款全新的机器狗,被誉为“机器狗界的变形金刚”。这款机器狗可以在爬行和直立两种模式之间灵活转换,具有很高的机动性和...
与人类贴身热舞!人形机器人进阶到街头耍宝,6华人组团出品
本文介绍了加州大学圣地亚哥分校(UCSD)全华人团队的最新研究成果,他们提出了一种名为ExBody的全身控制策略,用于人形机器人的全身控制。该策略主要训练机...