标签：直接偏好优化

一直爆料OpenAI「草莓」的账号，竟然是个智能体？斯坦福系创企「炒作」AgentQ

最近，AI智能体初创公司MultiOn发布了一款名为Agent Q的全新智能体，引起了广泛关注。Agent Q的训练方法结合了蒙特卡洛树搜索（MCTS）和自我批评，并通过直接...

AI-Agent

1年前 (2024)

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

在人工智能领域，大语言模型（LLM）的控制与指导是核心挑战之一。早期，人类反馈的强化学习方法（RLHF）被用来管理这些模型，取得了显著成效。然而，RLHF在训...

AIGC动态

1年前 (2024)

英伟达开源大模型对齐框架—NeMo-Aligner

本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner，旨在帮助开发人员提升大语言模型（LLM）的安全性能和稳定输出。随着大模型产品如ChatGPT和Midjourney...

AIGC动态

1年前 (2024)