标签:性能提升
苹果发布高效双EMA梯度优化方法,适配Transformer、Mamba模型
在深度学习模型训练中,优化非凸损失函数是一个挑战,尤其是当使用依赖于指数移动平均(EMA)的优化器如Adam和AdamW时。这些优化器可能在处理超大规模数据集...
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
阿尔伯塔大学教授Richard Sutton及其团队提出了一种名为“奖励聚中”(Reward Centering)的新型强化学习思想,旨在改进现有强化学习方法。该思想通过从奖励中...
苹果地表最强AI PC诞生,M4 Max猛兽加持性能暴涨!顶配6万,续航飙至24小时
苹果公司推出了全新的MacBook Pro系列,标志着M4芯片家族的诞生。这些笔记本电脑搭载了M4、M4 Pro和M4 Max芯片,采用第二代3nm工艺制造,提供了显著的性能提...
Meta开源首个量化模型Llama 3.2:减少40%内存,效率提升2倍以上
Meta公司最近开源了一款名为Llama 3.2的轻量级量化版大语言模型,提供10亿和30亿两种参数规模的版本。这款模型经过特别优化,以适应手机、平板和笔记本等移动...
我们能够让开源小模型变得比人类更聪明吗
本文由安全研究员Harish SG撰写,旨在探讨如何提升开源大语言模型(LLM)的推理能力,以期达到或超越闭源模型的性能。Harish SG是德克萨斯大学达拉斯分校网络...
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
零一万物公司近日发布了其新旗舰模型Yi-Lightning(闪电),在大模型竞技场Chatbot Arena上取得了显著成绩,总榜单排名第六,数学分榜第三,代码等其他分榜也...
清华校友用AI破解162个高数定理,智能体LeanAgent攻克困扰陶哲轩难题!
由加州理工学院、斯坦福大学和华盛顿大学的研究人员开发的LeanAgent,是一个具有终身学习能力的AI智能体,能够证明数学定理。该智能体通过优化学习轨迹和动态...
联发科打响手机芯片“卷AI”的第一枪
联发科技近日发布了天玑9400,这是国内首个显著提升智能手机AI能力的旗舰芯片。采用第二代全大核架构,天玑9400在CPU和GPU性能上达到新高度,同时增强了端侧A...
OpenAI 突然推送推送高级语音模式「Her」,又抢了谷歌风头
9月25日,Google宣布了两款新模型Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的发布。Gemini Pro是Google系列模型中的中等规模模型,对付费用户开放,而Gemini...
o1带火的CoT到底行不行?新论文引发了论战
近期,德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的研究人员提出了一个关键问题:在大型语言模型(LLM)中,是否应该使用思维链(Chain-of-Th...