标签:模型蒸馏
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名AI研究者Sebastian Raschka基于DeepSeek技术报告,系统阐述了增强大语言模型推理能力的四大核心方法。_推理模型被定义为擅长处理需要多步骤中间推导的复...
硅谷掀桌!DeepSeek遭OpenAI和Anthropic围剿,美国网友都看不下去了
OpenAI和Anthropic对DeepSeek的指控引起了广泛关注。OpenAI声称DeepSeek侵犯了其知识产权,通过模型蒸馏技术,即利用大模型的输出来提升小模型性能,以低成本...
原来,这些顶级大模型都是蒸馏的
中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在新论文《Distillation Quantification for Large Language Models》中探讨了大型语言模型(LL...
Adobe、加大推出音乐模型DITTO-2,可精准控制强度、旋律等
Adobe和加州大学的研究人员联合开发了一款名为DITTO-2的音乐模型,该模型基于扩散模型,显著提升了音乐生成的效率和控制能力,包括音乐修复、扩展、强度调整...
乏善可陈的第二届OpenAI开发者大会,果然没有掀起太大波澜
在最近举行的第二届OpenAI DevDay开发者大会上,OpenAI并没有推出任何重大的新产品,而是选择对其现有的AI工具和API进行了一系列增量改进。这些改进包括视觉...
OpenAI DevDay:Realtime 实时多模态 API、缓存折扣、视觉微调,全是利好开发者的
OpenAI在最近的DevDay上宣布了五项重大创新,这些创新标志着该公司战略重心的转变,更加注重基础建设和开发者生态的增强。这些新能力包括实时API、提示词缓存...