标签：训练

OpenAI自曝“o4”训练中，用思维链监控抓住AI作弊瞬间

OpenAI的最新研究提出了一种通过语言模型监控思维链的方法，旨在及时发现推理模型的不当行为。这种方法被称为思维链监控（CoT monitoring），其核心思想是通...

AIGC动态

6个月前

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练作为一种基于PPO算法的改进方法，近年来在强化学习领域引起了广泛关注。GRPO通过采样替代value model的方式，简化了训练过程，提升了稳定性和可维护...

AIGC动态

6个月前

OpenAI：我愿花500万购买新闻文章版权，谷歌：我出10亿美金

作者信息【原文作者】夕小瑶科技说【作者简介】更快的AI前沿，更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国...

AIGC动态

2年前 (2024)

1 2 3