标签:测试时计算
如何优化测试时计算?解决「元强化学习」问题
当前改进大型语言模型的主流方法依赖于增加高质量数据的监督微调或强化学习,但数据扩展面临瓶颈。研究预测,用于训练的高质量文本可能在2028年耗尽,而复杂...
阿里发布推理模型QwQ-32B-Preview,性能超OpenAI o1-preview
阿里巴巴的Qwen团队最近发布了QwQ-32B-Preview,这是一个拥有325亿参数的推理模型,能够处理高达32,000个Token的提示词,并且是首个在宽松许可下可供下载使用...
连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路
近期,AI社区对The Information的一篇文章反响强烈,该文章指出OpenAI下一代旗舰模型的质量提升可能不及前两款,原因是高质量文本和其他数据供应减少,原本的...