标签:推理优化

选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化

最近,DeepSeek 和 Kimi 的推理模型更新引起了广泛关注。同时,谷歌 DeepMind、加州大学圣地亚哥分校和阿尔伯塔大学的研究者发表了一篇题为《Evolving Deeper...

Adobe、加大推出音乐模型DITTO-2,可精准控制强度、旋律等

Adobe和加州大学的研究人员联合开发了一款名为DITTO-2的音乐模型,该模型基于扩散模型,显著提升了音乐生成的效率和控制能力,包括音乐修复、扩展、强度调整...

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

纽约大学谢赛宁领导的团队近期研究了扩散模型在推理时的scaling效果,发现增加推理时间计算能显著提升扩散模型生成样本的质量。研究团队通过通用搜索框架系统...

医疗复杂推理开源大模型——华佗GPT-o1

香港中文大学(深圳)和深圳市大数据研究院联合开源了一款专用于医疗领域的复杂大模型——华佗GPT-o1,旨在辅助医生进行更高效的推理。该模型的开发基于高质量...

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

DeepSeek V3,一个参数量为671B的MoE模型,已全面开源。该模型在14.8T高质量token上进行了预训练,激活37B参数,并在多项测评中达到开源SOTA,超越了Llama 3....

Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI

AI领域正面临重大转变,传统大模型的Scaling Law已遭遇瓶颈。OpenAI的下一代旗舰Orion和其他公司的大规模语言模型(LLM)如谷歌的Gemini 2.0和Anthropic的Opu...

全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral

Snowflake的Arctic模型以其128位专家和4800亿参数的规模,成为目前最大的开源模型。该模型基于Dense-MoE架构设计,由一个10B的稠密Transformer模型和128×3.66...