标签:性能提升

Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

谷歌推出了一种新的AI架构——Titans,旨在解决现有注意力机制无法扩展到长上下文的问题。Titans结合了注意力机制和元上下文记忆,能够处理长达200万tokens的上...

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

近期,阶跃星辰与清华大学等机构合作的论文《Multi-matrix Factorization Attention》提出了一种新型注意力机制架构——多矩阵分解注意力(MFA)及其变体MFA-Ke...

英伟达,更新路线图!台积电中枪?

Nvidia近期更新了其Blackwell架构路线图,优先采用CoWoS-L封装的双芯片设计,以应对市场对高端双芯片设计需求的增长。从2024年第一季度起,Nvidia将专注于200...

GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型

布朗大学和康奈尔大学的研究者提出了一种新型GAN架构——R3GAN(Re-GAN),这一突破性架构引入了正则化相对性损失函数,不仅在理论上证明了局部收敛性,而且在...

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

微软亚洲研究院的研究团队提出了一种名为rStar-Math的小型语言模型(SLM),在数学推理能力上表现出色,能够媲美甚至超越OpenAI的o1模型。rStar-Math通过自我...

陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队提出了一种新的预训练方法,名为元数据调节然后冷却(MeCo),旨在提高大模型的性能并降低训练数据的需求。该方法通过在预训练阶段引入元数据,如...

机器人技术永远不会出现“ChatGPT时刻”

2024年对于通用机器人技术领域而言是充满激动人心进展的一年,而2025年的发展预测同样引人关注。首先,硬件趋同现象预计将导致人型机器人在2025年底实现商用...

时隔6年,谷歌BERT终于有替代品了!更快更准更长,还不炒作GenAI

新型AI研发实验室Answer.AI和英伟达等近日发布了ModernBERT,这是一个在速度和准确率上显著改进的模型系列,包含基础版139M和较大版395M两个型号。ModernBERT...

OpenAI员工在推特上,像极了上班的你

OpenAI近期发布了其旗舰推理模型o3和o3-mini,标志着公司2024年的收官。此次发布在Twitter上引发了广泛讨论,特别是OpenAI员工的积极参与,几乎全员出动为公...

DeepSeek V3刷屏,550万元2000张卡做出的开源模型,和OpenAI几亿烧出来的一样好

深度求索公司发布的DeepSeek V3技术报告揭示了其高效训练的关键数据,展现了该模型在资源依赖小、成本低的同时,效果异常出色。在预训练阶段,DeepSeek-V3在...
1 2 3 12