标签：对数概率

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散模型在推理任务中的表现正逐渐受到关注，尤其是通过强化学习（RL）方法的应用。传统上，自回归大语言模型（LLM）在推理任务中占据主导地位，但离散扩散大...

AIGC动态

4个月前