标签:性能提升

xAI、Anthropic同日上线API:Grok免费公测,Claude Haiku价格暴涨

Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型更新了截至2024年...

腾讯放大招,超Meta!史上参数最大,开源专家混合模型

腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型,该模型基于Transformer架构,拥有3890亿参数,其中激活参数为520亿,能够处理长达256K的上...

AI圈卷疯了!xAI、Anthropic同日上线API:Grok免费公测,Claude 3.5 Haiku价格暴涨

Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型...

苹果发布高效双EMA梯度优化方法,适配Transformer、Mamba模型

在深度学习模型训练中,优化非凸损失函数是一个挑战,尤其是当使用依赖于指数移动平均(EMA)的优化器如Adam和AdamW时。这些优化器可能在处理超大规模数据集...

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

阿尔伯塔大学教授Richard Sutton及其团队提出了一种名为“奖励聚中”(Reward Centering)的新型强化学习思想,旨在改进现有强化学习方法。该思想通过从奖励中...

苹果地表最强AI PC诞生,M4 Max猛兽加持性能暴涨!顶配6万,续航飙至24小时

苹果公司推出了全新的MacBook Pro系列,标志着M4芯片家族的诞生。这些笔记本电脑搭载了M4、M4 Pro和M4 Max芯片,采用第二代3nm工艺制造,提供了显著的性能提...

Meta开源首个量化模型Llama 3.2:减少40%内存,效率提升2倍以上

Meta公司最近开源了一款名为Llama 3.2的轻量级量化版大语言模型,提供10亿和30亿两种参数规模的版本。这款模型经过特别优化,以适应手机、平板和笔记本等移动...

我们能够让开源小模型变得比人类更聪明吗

本文由安全研究员Harish SG撰写,旨在探讨如何提升开源大语言模型(LLM)的推理能力,以期达到或超越闭源模型的性能。Harish SG是德克萨斯大学达拉斯分校网络...

国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10

零一万物公司近日发布了其新旗舰模型Yi-Lightning(闪电),在大模型竞技场Chatbot Arena上取得了显著成绩,总榜单排名第六,数学分榜第三,代码等其他分榜也...

清华校友用AI破解162个高数定理,智能体LeanAgent攻克困扰陶哲轩难题!

由加州理工学院、斯坦福大学和华盛顿大学的研究人员开发的LeanAgent,是一个具有终身学习能力的AI智能体,能够证明数学定理。该智能体通过优化学习轨迹和动态...
1 2 3 4 5 11