标签:模型

微软再放LLM量化大招!原生4bit量化,成本暴减,性能几乎0损失

微软亚研院的研究团队近期发布了原生1bit精度的大模型BitNet b1.58 2B4T的升级版本——BitNet v2。这一新版本在性能几乎无损失的情况下,显著降低了内存占用和...

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),旨在优化大语言模型的推理效率和硬件...

巧妙!一个传统技术让国产视觉基础模型直接上大分

格灵深瞳最新发布的视觉基础模型Glint-MVT在多个领域展现了显著的技术突破。该模型通过引入间隔Softmax损失函数,显著提升了泛化能力,并在26个分类测试集中...

Claude 4 发布:替代人类程序员所需的条件,现在它都有了

Anthropic 近日发布了 Claude 4 系列模型,包括旗舰型号 Claude Opus 4 和更侧重效率的 Claude Sonnet 4。这一系列模型在编程能力上实现了重大突破,尤其是在...

靠「AI婴儿播客」拿到a16z 3200万美元投资,Hedra凭什么?

Hedra,一家生成式 AI 初创公司,近期完成了 3200 万美元的 A 轮融资,由 Andreessen Horowitz(a16z)领投,总融资额达到 4400 万美元。与市场上其他生成式 ...

从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?

模型开发已经从早期的算法层优化转向系统工程层面的深度创新,标志着技术领域的重大转变。随着数字化时代的比特流量逐渐转向Token经济体系,国内Token日消耗...

纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源

a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文,探讨了在推理模型训练中蒸馏数据源的重要...

DeepSeek们越来越聪明,却也越来越不听话了。

近年来,随着AI推理能力的提升,模型在执行任务时被认为应该更加聪明。然而,这种聪明却带来了一个意想不到的副作用:提示词遵循能力逐渐下降,模型变得越来...

OpenAI:GPT-5就是All in One,集成各种产品

OpenAI在发布“最强编程智能体Codex”后,通过Reddit的“有问必答”活动,进一步透露了关于下一代基础模型GPT-5的规划。公司研究副总裁Jerry Tworek表示,未来计...

怎么回事?刚被OpenAI收购,Windsurf就发了个自己的模型

OpenAI近期以30亿美元的价格收购了AI编程热门公司Windsurf,这一举动标志着AI编程工具领域的进一步发展。Windsurf发布了其最新的AI编程模型SWE-1,该模型不仅...
1 3 4 5 6 7 19