标签:性能
【 ICLR 2025 】Adam 有了 mini 版:内存减半,吞吐量可提升 50%
在大语言模型训练中,内存开销是一个关键挑战,尤其是Adam优化器的高内存需求。为了解决这一问题,研究团队提出了一种轻量化优化器Adam-mini,通过分析Transf...
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
英伟达于4月8日发布了最新大语言模型Llama3.1 Nemotron Ultra 253B,该模型基于Meta的Llama-3.1-405B-Instruct构建,并通过神经架构搜索(NAS)技术进行了深...
反英伟达联盟的里程碑,UA Link 1.0:正式发布
UALink 1.0 规范的发布标志着人工智能计算领域的一个重要里程碑。该规范由 UALink 联盟于 2024 年 5 月成立,成员包括 AMD、AWS、博通、思科、谷歌、HPE、英...
斯坦福 AI 指数报告发布:2024 年美国 AI 私人投资约为中国的 12 倍、GPT-3.5级别模型推理成本下降 280 倍
斯坦福大学以人为本的人工智能研究所(HAI)发布的《2025年人工智能指数报告》显示,中美在人工智能领域的差距正在显著缩小。报告指出,过去一年中,美国的AI...
刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
Llama 4 Behemoth作为教师模型,拥有2880亿个活跃参数和近2万亿个总参数,在数学、多语言处理和图像基准测试方面提供了最先进的性能。通过新的蒸馏损失函数和...
刚刚,Meta发布Llama 4系列模型
Meta今日发布了Llama 4系列模型,标志着其在人工智能领域的又一重要进展。Llama 4系列是首批开放权重的原生多模态模型,支持超长上下文,并首次采用了混合专...
单个4090就能跑,Mistral开源多模态小模型,开发者:用来构建推理模型足够香
法国AI创企Mistral AI最近开源了一款名为Mistral Small 3.1的多模态小模型,该模型在多个基准测试中表现优异,超越了Gemma 3和GPT-4o Mini等同类模型。Mistra...
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
在GPU领域,英伟达、AMD和英特尔长期占据主导地位,而美国初创公司Bolt Graphics近期发布的Zeus GPU平台,试图在高端GPU计算领域开辟新的道路。Zeus GPU专为...
苏妈击溃英特尔再战英伟达,十年逆袭市值飙至1600亿!AMD怪兽完爆4090 7.3倍
AMD的CEO苏姿丰在过去十年中成功带领公司从低谷走向巅峰,击败了英特尔,并在数据中心业务上取得了显著成绩。如今,她将目光投向了英伟达,试图通过开源软件...
中国 AI 确实又“炸裂”了硅谷一回,不过是因为通义QwQ开源版
中国大模型领域在3月6日同时发生了两个引发广泛关注的AI事件:AI Agent产品Manus和阿里巴巴开源的通义千问QwQ-32B模型。虽然Manus被部分人称为“炸裂”成果,但...