标签:推理优化
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
大语言模型(LLM)在推理领域的最新进展表明,通过扩展测试时计算可以显著提升模型的推理能力。OpenAI的o1系列等模型展示了这一潜力,尤其是在生成长推理链时...
DeepSeek的MLA,任意大模型都能轻松迁移了
DeepSeek-R1作为AI产业颠覆式创新的代表,其训练与推理成本仅为同等性能大模型的数十分之一,核心在于多头潜在注意力网络(MLA)。MLA通过对键值缓存进行低秩...
阿里要开源史上最强推理模型,性能超过DeepSeek R1。
阿里巴巴今日凌晨发布了基于Qwen2.5-Max架构的推理模型QwQ-Max-Preview,并宣布即将通过Apache 2.0许可证全面开源QwQ-Max及Qwen2.5-Max。这一举措标志着阿里...
梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
斯坦福大学、加州大学伯克利分校等机构联合发布了开源推理模型OpenThinker-32B,其性能接近当前最先进的DeepSeek-R1-32B模型。该模型仅使用114k训练数据(相...
选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化
最近,DeepSeek 和 Kimi 的推理模型更新引起了广泛关注。同时,谷歌 DeepMind、加州大学圣地亚哥分校和阿尔伯塔大学的研究者发表了一篇题为《Evolving Deeper...
Adobe、加大推出音乐模型DITTO-2,可精准控制强度、旋律等
Adobe和加州大学的研究人员联合开发了一款名为DITTO-2的音乐模型,该模型基于扩散模型,显著提升了音乐生成的效率和控制能力,包括音乐修复、扩展、强度调整...
扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式
纽约大学谢赛宁领导的团队近期研究了扩散模型在推理时的scaling效果,发现增加推理时间计算能显著提升扩散模型生成样本的质量。研究团队通过通用搜索框架系统...
医疗复杂推理开源大模型——华佗GPT-o1
香港中文大学(深圳)和深圳市大数据研究院联合开源了一款专用于医疗领域的复杂大模型——华佗GPT-o1,旨在辅助医生进行更高效的推理。该模型的开发基于高质量...
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
DeepSeek V3,一个参数量为671B的MoE模型,已全面开源。该模型在14.8T高质量token上进行了预训练,激活37B参数,并在多项测评中达到开源SOTA,超越了Llama 3....
1
2