标签:思维链
梁文锋、杨植麟同一天发论文“秀肌肉”,主题居然撞上了!下一代模型要来了?
2月18日,DeepSeek与月之暗面同时发布针对Transformer注意力机制改进的研究成果,聚焦于降低计算复杂度并提升长文本处理效率。这一技术竞争凸显了行业对高效...
DeepSeek 颠覆了什么?学习不靠“人盯”,AI自己“卷”自己
DeepSeek 在近期推出的 R1 模型及其 Zero 研究,通过纯强化学习路线实现了推理模型的突破性进展。其核心创新在于证明无需过程监督数据,仅依靠结果控制即可训...
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
在认知科学领域,关于语言是否用于思考或交流的辩论一直存在。随着大型语言模型(LLM)和思维链(Chain of Thought, CoT)的兴起,语言已成为机器推理的默认...
谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿
谷歌最新模型Gemini(Exp 1114)在经过6000多名网友的匿名投票后,超越了OpenAI的o1模型,成为竞技场总榜第一。Gemini(Exp 1114)不仅在数学成绩上与o1相当...
三个大模型组队挑战o1,实测360多模型协作干掉提示词工程
OpenAI的o1模型引领了大模型发展的新趋势,即从训练阶段转向推理过程的投入,这一转变得到了英伟达AI科学家Jim Fan的认同。他引用了机器学习先驱Rich Sutton...
让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
新智元报道了一项在人工智能领域的重要进展,即360公司采用的CoE(Collaboration of Experts)架构与OpenAI的o1模型在技术上的相似之处。o1模型以其卓越的推...
o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
在最新的研究中,斯隆奖得主马腾宇和Google Brain推理团队创建者Denny Zhou联合证明了Transformer模型在引入思维链(Chain of Thought, CoT)后,理论上能够...