推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考

AIGC动态7小时前发布 QbitAI
26 0 0
推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考

 

文章摘要


【关 键 词】 开源模型潜空间推理循环模块几何模式算力优化

一种名为Huginn的新型开源推理大模型架构通过在连续高维潜空间中直接操作隐藏状态,突破了传统长思维链推理范式的限制。该模型由马克思普朗克研究所和马里兰大学团队联合开发,其核心创新在于将Transformer架构与循环模块结合,形成包含前奏、循环块和尾声的三段式结构。潜空间推理使模型能够自适应调整计算资源,对关键信息进行深度处理,例如在数学问题中,数字”3″的隐状态会形成复杂圆形轨道,而无关信息则快速收敛。

模型架构中,前奏模块通过Transformer层将输入映射到潜空间,循环块通过动态迭代修改隐状态,尾声模块负责解码输出。训练过程中采用随机分配迭代次数的策略,并通过仅反向传播最后k次迭代来降低计算成本。可视化分析揭示了隐状态在潜空间中的三种典型运动模式:快速收敛稳定点、关键token的旋转轨迹以及用于计数的定向滑动,这些现象表明模型能自主利用高维空间的几何特性进行推理。

在算力受限条件下,研究团队使用Frontier超算的4096块AMD GPU训练出3.5B参数模型。尽管训练数据量仅为800B tokens且未经过后训练处理,其性能已与主流7B参数、2-3T tokens数据训练的开源模型相当。由于循环模块的引入,实际计算量相当于传统32B参数模型,但获得了更紧凑的模型规模。

该方法展现出多项优势:无需专用训练数据、适应小上下文窗口,并能处理非语言化的推理类型。业界推测OpenAI可能采用类似技术实现无限上下文支持,而DeepSeek-R1等开源项目已开始探索结合潜空间推理与可解释思维链的混合方案。模型开源后引发广泛关注,其可视化推理轨迹为理解大模型内部机制提供了新视角,相关代码和预训练模型已在Hugging Face及GitHub平台发布。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 824字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-r1
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...