
❤️ 实时更新精心挑选的评分较高的最新文章摘要(每日最多10篇),助你随时了解人工智能领域的最新动态和热门事件 ❤️
◈ 09月13日 星期六 【 2 篇 】
◎ 清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
强化学习(RL)在人工智能发展中一直是重要方法,自1998年概念提出后,在多个领域取得显著成果。进入大模型时代,RL最初用于让模型更符合人类偏好,近年来研究者希望通过它让模型真正学会“推理”。
RL在大推理模型中的应用潜力巨大。大推理模型(LRM)通过可验证的奖励提升推理能力,如OpenAI的o1和DeepSeek – R1展示了模型经RL训练后,在规划、反思和自我纠正方面的能力提升,意味着推理能力可通过“扩展”增强。但要实现RL在大推理模型中的大规模应用,面临奖励设计、算法效率、数据和算力支撑等挑战。
来自清华大学和上海人工智能实验室等的研究者组织并总结了推理模型的最新RL研究。RL在…
来源: 机器之心
◎ 用户退订、封锁中国,Claude Code亲手送出的“泼天富贵”,腾讯CodeBuddy来接了?
Claude Code曾是备受追捧的AI编程工具黑马,但近期却让全球开发者失望。开发者 Ahmad 在推上细数其“数宗罪”,如 Claude Code 里没有 opus 4、周用量限制却不提供具体数据等,其帖子已有 38.4 万阅读量。同时,有开发者在 reddit 上直言其正在走下坡路。
当前,AI编程工具竞争激烈,不仅在产品层面,模型层面的博弈也很激烈,甚至出现全球范围的“准入门槛”和“封锁线”。在此背景下,国产代码模型加速发力,如今年 8 月的 DeepSeek V3.1 在国际开发者社区引发热议,它在 aider 编程基准测试中成绩优异,且在多方面全面升级。
国产编程工具也在不断…
来源: AI前线
◈ 09月12日 星期五 【 9 篇 】
◎ Claude 官方发文:如何给 Agent 构建一个好用的工具?
Claude 新增创建和编辑主流办公文件的功能,拓展了 AI 应用场景。Anthropic 分享了开发和优化智能体工具的经验与方法论。
转变设计思维:要为不确定、会推理的 AI 设计直观易用的工具,而非仅考虑输入输出。评估要基于真实复杂任务,构建整合工作流的工具,精心设计工具描述。
工具的定义与特点:工具是确定性系统与非确定性智能体间的新型软件契约。编写时要为智能体量身设计,目标是扩大其解决任务的有效范围,且顺手的工具对人类也直观易懂。
编写工具的方法
– 构建原型:先快速搭建原型,为 Claude 提供相关文档。将工具包装在本地 MCP 服务器或桌面扩展中进行测试,也可传入 API …
来源: Founder Park
◎ 数据、IP、境外实体,到底先抓谁?一文讲清 AI 出海合规全流程
产品出海在找到 PMF 后,需解决合规和法律问题。此次邀请了企业出海资深律师和 AI 法律类产品创业者,探讨科技公司、AI 创企「出海」面临的合规风险、案例及应对方法。
出海前的规划与准备:主要分为四个环节。首先要进行法律国别调查,了解目的国法律体系、政治稳定性和法治成熟度,提前做好合规设计。其次是出海交易架构设计,企业可根据战略选绿地投资、收购并购或产品出海模式,各有优劣,同时要考虑股权架构优化税收等。第三是境内审批手续,向发改委申报项目可行性,在商务部门备案。最后是当地合规运营,关注外商投资准入、税务登记和劳动用工法律。
境内外合规要点:境内合规涉及监管部门审批和备案,如发改委的核准…
来源: Founder Park
◎ 无需动作预训练,物理自回归模型让机器人“从视频学会操作”
中山大学与拓元智慧AI实验室联合提出的“物理自回归模型(PAR)”,打通了“预判未来视频帧—生成动作轨迹”的统一链路,在机器人操控领域展现出显著优势。
在研究背景方面,机器人操控领域获取大规模、标注完备的人类示教数据成本高昂,语言大模型用于行动策略存在文本与动作模态的鸿沟。而自回归视频生成模型擅长“基于过去预测未来”,与动作生成目标一致,是迁移“世界知识”的理想载体。同时,现有的方法依赖“局部观察”,缺乏长程历史记忆,而具备全局记忆的自回归框架可实现“视觉 – 动作”的全局关联建模,降低机器人“动作漂移”问题。
PAR模型的核心是将机器人与环境的交互过程统一描述成“物理token”,每个…
来源: AI科技评论
◎ 陶哲轩团队1年半项目,被他3周搞定!曾与LeCun吵翻天,如今AI大佬创业用智能体震惊整个学界?
xAI 前联合创始人、Morph Labs 首席科学家 Christian Szegedy 创立新公司 Math Inc.,致力于通过自动形式化技术打造可验证超级智能。其团队开发的自动形式化智能体 Gauss 取得突破性成果。
一、Gauss 完成强素数定理形式化
Gauss 是首款协助数学专家进行形式化验证工作的智能体,借助它,团队完成了 2024 年陶哲轩与 Alex Kontorovich 提出的挑战,在 Lean 定理证明器中完成强素数定理的形式化,相关代码已上传至 GitHub。将人类数学成果转化为可验证机器代码成本高、难度大,陶哲轩团队投入 18 个月才取得阶段性进展,而 Ma…
来源: AI前线
◎ 张宏江、王兴兴、王坚等AI大咖亮相2025外滩大会,中美AI竞争核心力量有哪些?
9月10 – 13日,外滩大会在上海举行,多位行业大咖围绕AI发展发表重要观点。
蚂蚁集团CEO韩歆毅 认为未来AI大语言模型可能“吃掉”所有软件,软件解决确定性问题的方式正是大语言模型擅长的,且已有新软件开始生成智能体解决任务。在AI医疗领域,他强调AI是医生助手,蚂蚁聚焦解决数据、幻觉、伦理等问题,暂不急于商业化。此外,蚂蚁坚决不发行虚拟币,探索通证经济要与实体经济结合。
阿里云创始人王坚 指出开源和闭源模型成为中美AI竞争关键变量,模型权重开放本质是数据和计算资源开放,开放资源是推动行业发展的重要环境。他还分享了之江实验室“三体计算星座”项目,将AI模型送上太空,计划开放卫星,推动…
来源: 钛媒体AGI
◎ DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
华为发布的DeepDiver-V2原生多智能体系统采用“团队作战”模式,在复杂知识问答和深度研究报告生成方面表现出色,且已开源。
性能优于同规格竞品:在BrowseComp-zh和BrowseComp-en等权威基准测试中,DeepDiver-V2-7B和DeepDiver-V2-38B得分超越同规格竞品。在长文报告生成的WebPuzzle-Writing测试中,其生成报告平均长度是OpenAI o3 DeepResearch的两倍多,自动评测信息度表现亮眼。
架构实现创新协作:与前代不同,它采用以Planner为中心,协调多个Executor的MAS架构。Planner能进行智能任务分…
来源: 量子位
◎ 阿里云,这次杀疯了,断档第一
阿里云在 AI 云市场断层式领先,份额比第二名到第四名加起来还多。Omdia 的报告显示其数据客观,引发对 AI 云和阿里云优势的探讨。
AI 云的发展演进:技术重点随时间变化,最早的云将线下 IT 服务搬到线上,企业可按需租用资源。2015 年前后,Docker 和 Kubernetes 出现,云计算进入云原生阶段,解决应用如何真正依托云的问题。大模型爆发后,企业需求升级,不仅希望应用稳定,还追求智能化,AI 云应运而生。它与以往不同,不只是售卖算力,而是将智能打包成一条龙服务,让企业能在业务中落地 AI。从用户视角看,经历了从买硬件、买应用环境到买智能的转变。
阿里云的市场地位:中国…
来源: AI产品阿颖
◎ 央企怎么做超级智能体?对谈中电信天翼AI:自研模型为底座,自主规划是必须,能适应千行百业才行
中国电信天翼AI发布星辰超级智能体,获DBC德本咨询2025企业级AI Agent榜单央企第一。此次访谈中国电信人工智能研究院副院长李永翔和中电信人工智能科技(北京)有限公司首席架构师毕然,探讨智能体的底层技术、行业落地及发展趋势。
星辰超级智能体特点与优势显著。它基于中国电信自研“星辰大模型”技术底座,具有全模态、全尺寸、全国产特点,定向增强复杂推理和记忆能力,强调安全保障。与市面上多数强调C端消费级场景的智能体不同,星辰超级智能体定位为深入业务架构的数字化生产力单元,提供深度定制能力以提升企业生产力。
智能体发展存在不同路线。当前行业内智能体发展分为自主规划智能体、工作流智能体和超级…
来源: 量子位
◎ 字节跳动发布OmniHuman-1.5,数字人界的“影帝”诞生了
想象与能“眉来眼去”、进行情绪交流的AI虚拟人聊天并非科幻,字节跳动智能创作实验室推出的OmniHuman – 1.5宣告“数字人新王”登基。
此前市面上的AI数字人多是“精致的提线木偶”,仅具备“条件反射式”的快反应,缺乏需要逻辑推理、深思熟虑的慢反应,动作虽逼真但缺少“灵魂”,表情和动作不自然。字节跳动团队以“双系统理论”为底层逻辑,构建“认知引擎”。用多模态大语言模型充当虚拟人的“思考系统”(System 2),它会分析人物信息、音频内容和情绪等,整合后规划出逻辑严密的“动作剧本”;再由多模态扩散Transformer(MMDiT)架构作为“执行系统”(System 1),将文字指令…
来源: AIGC开放社区
◈ 09月11日 星期四 【 3 篇 】
◎ 刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
人工智能初创公司 Thinking Machines Lab 发布文章《克服 LLM 推理中的不确定性》,探讨大语言模型推理不确定性的原因及解决方法。
可复现性是科学进步的基石,但大语言模型推理很难获得可复现结果。即使将温度参数调为 0,或在自己硬件上用开源推理库运行,采样过程仍不确定。常见假设“LLM 推理不确定性的‘并发 + 浮点’假设”,认为浮点运算非结合性与并发执行组合导致不确定性,但这未揭示全貌。
浮点非结合性是数值差异的根源。浮点数因允许动态精度而有用,但不同阶位浮点数相加会导致信息丢失,每次以不同顺序相加结果可能不同,但这不能直接解释不确定性来源。现代 GPU 核函数多数情…
来源: 机器之心
◎ 看到AI创作者不断被盗用和侵权,我有话想说。
近期,AIGC 艺术圈发生了一起公司盗用创作者作品的恶劣事件。海辛和阿文是备受认可的 AIGC 艺术家,作品上过春晚且有诸多爆款,朋友@Wenvis 也有知名作品。然而,一家八月新成立的公司盗用他们的作品,在 PPT 中大量展示,自身承制案例却仅占一页,甚至将海辛和阿文的作品整页展示并可扫码播放。
事情经过是,九月八号周一晚上,海辛发现有人说她在一家 AI 短剧公司挂名做低价项目,经打听,于九月九号周二凌晨拿到了盗用作品的 PPT,并发朋友圈澄清,阿文也发微博说明未与该公司合作及授权。周二他们一边与律师沟通、联系公司,一边坚持工作,海辛状态紧绷。所幸公司迅速认错,承诺道歉、下架宣传内容并配…
来源: 数字生命卡兹克
◎ 英伟达联手QCI搞大事:量子应用能在真机前先模拟纠错
量子电路公司(QCI)与NVIDIA合作,将NVIDIA的CUDA – Q编程能力集成到QCI的Aqumen软件套件中,推动量子计算从理论走向市场。
QCI由耶鲁大学应用物理系大神创立,总裁雷·斯梅茨带领其从学术研究机构转型为商业先锋。该公司秉持“先纠正,后扩展”理念,认为量子计算最大问题是“错误”,由此催生核心技术——双轨量子比特。
双轨量子比特是基于超导电路量子电动力学原理的精巧逻辑子系统。它由两个超导谐振器(腔)通过耦合器连接编码量子信息,还有一个超导量子比特负责“读数”。其主要错误类型为擦除错误,相比传统量子比特的错误更容易处理。基于此,QCI提供三大功能:量子错误检测能实时发现…
来源: AIGC开放社区
◈ 09月10日 星期三 【 7 篇 】
◎ 中小企业如何突破AI算力“高墙”?
国务院发布《关于深入实施“人工智能 +”行动的意见》,预示着 AI 将成为各行业重点发展的数字技术之一。然而,AI 算力面临诸多瓶颈,中小企业更是遭遇“算力高墙”,打造 AI 算力版“安卓”成为破局关键。
从市场情况来看,截至 2025 年 6 月底,我国发布大模型数量居全球首位,但 AI 算力存在高端算力供给不足、国产加速卡性能差距大等问题。在 AI 产业中,中小企业虽承载创新基因,对行业发展贡献巨大,但受算力成本影响严重。硬件采购成本高昂,一套英伟达 DGX SuperPOD 配套软硬件及服务项目中标金额达 2.592 亿元;租赁模式也困境重重,费用高且资源调度不稳定。算力竞争成为资本…
来源: 钛媒体AGI
◎ AI低质代码泛滥、API经济盛行,老牌科技厂商 F5 如何应对大模型应用“后遗症”?
大型企业使用 AI 编程工具虽提升开发效率,但也带来诸多挑战。F5 亚太区首席技术官 Mohan Veloo 指出,安全性问题是首要挑战,AI 生成代码可能含新安全漏洞;“Vibe Coding” 使低质代码增多,API 数量激增加重运维负担;“黑盒子” 问题让代码审查困难。
F5 最新调查显示,企业业务系统更多由 AI 驱动,AI 安全成为重要挑战。F5 北亚区区域副总裁张振伦介绍,企业应用面临性能瓶颈、身份验证便捷与安全平衡难题。WAAP 成 AI 默认保护标准,超 91% 用户应用其保护 AI/ 机器学习模型安全。同时,运维人员借助 AI 简化流程,可观测性成为 AI 驱动自动化关键…
来源: AI前线
◎ 腾讯版“Claude Code”来了!AI编程L4时代is coming
9月9日,腾讯发布AI CLI工具CodeBuddy Code,同时CodeBuddy IDE开启公测,面向所有用户开放。IDE和CLI区分国内外版本,分别支持海内外模型,国内版无限制使用,国际版测试期间有部分Pro模型体验额度。
CodeBuddy Code定位于专业工程师使用的CLI Agent,基于npm安装,支持用自然语言驱动开发运维全生命周期,可提升自动化效率,被视为腾讯版的“Claude Code”。腾讯工程师在直播中演示了用其开发自身的真实场景,全程无需手写代码。随着它的诞生,腾讯云CodeBuddy成为业内首个同时支持插件、IDE和CLI三种形态的AI编程工具矩阵。
随着…
来源: 量子位
◎ AI胡说八道这事,终于有人管了?
AI大模型的幻觉问题在高风险领域应用中愈发棘手,现有幻觉检测技术存在局限,而苏黎世联邦理工学院和MATS的新研究提出了低成本、可扩展的检测方法。
揭示幻觉根源与现状:OpenAI论文指出大模型幻觉问题根源在于奖励机制,标准训练和评估程序更倾向奖励猜测,而非承认不确定。随着AI大模型在高风险领域应用加深,幻觉问题更棘手,不少研究者发力寻找原因和研究检测技术,但现有检测技术仅适用于简短事实查询,或需借助昂贵外部资源验证。
新检测方法核心及优势:新研究提出的检测方法核心是精准识别实体级幻觉,能自然映射到token级标签,实现实时流式检测。主要通过token级探针检测幻觉实体,线性探针在长文本生…
来源: 机器之心
◎ 无锡“芯”火续燃,再迈新征程
全球半导体产业处于加速重构关键节点,集成电路产业迎来技术迭代与市场扩张机遇。2025年全球半导体市场规模预计突破7280亿美元,2026年有望达8000亿美元。在此背景下,9月4 – 6日,2025集成电路(无锡)创新发展大会在无锡太湖国际博览中心开幕。
大会聚焦产业发展:此次大会由无锡市人民政府等联合举办,约800位重量级嘉宾出席。江苏省副省长李忠军等领导出席并致辞,肯定无锡集成电路产业成效,提出发展期望。无锡市委书记杜小刚围绕产业发展分享四点建议,包括共建制造高地、创新引擎、新算力应用场景和发展生态。工业和信息化部电子司副司长王世江希望无锡抓住机遇,集聚成果与人才。
核心项目与成果发…
来源: 半导体行业观察
◎ Marvell,跌落神坛!
在AI时代,Marvell这家曾凭借AI定制芯片业务站上千亿美元市值的半导体巨头,近期股价震荡,年内跌幅超40%,沦为费城半导体指数最大输家之一,引发市场高度关注。
2024年底,ASIC芯片爆发,Marvell凭借定制芯片业务市值突破千亿美元,成为“ASIC新星”,还与亚马逊AWS达成合作。然而,2025年初英伟达入局ASIC部门,Marvell遭遇资本市场抛售,千亿市值光环褪去。
8月28日公布的第二季度财报成为市场情绪转变导火索。虽营收达20.1亿美元创历史新高,但第三季度营收预期中值低于分析师预期。数据中心业务作为核心增长引擎,虽第二季度营收增长69%,但未达市场预期,且AI业务…
来源: 半导体行业观察
◎ 腾讯开源混元Image 2.1:2K高清+完美文字嵌入,图文天花板来了
今天凌晨,腾讯开源最新图像模型混元Image 2.1,其在图像生成领域表现出色。
模型特点与功能:混元Image 2.1支持原生2K分辨率图像和1000 token的超长篇复杂提示词,文本语义理解和文字嵌入能力强,能将中英文无缝写入图像,适用于专业设计场景。腾讯还开源了基于MeanFlow的加速版模型权重,可将推理步数从100步缩减至8步,以及业内首个工业级提示词改写模型PromptEnhancer,能优化提示词,生成更细腻、富有表现力的图像。
生成效果展示:混元Image 2.1生成的图像尺寸可更改,有1:1、3:4等五种类型,一次最多生成4张图像。通过多个中英文混合文字嵌入的提示词测…
来源: AIGC开放社区
◈ 09月09日 星期二 【 3 篇 】
◎ SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
我们已进入大模型时代,大模型成为智能化基础设施核心,支撑多种下游应用,但多数模型是细分领域任务的专家,离通用人工智能(AGI)尚远,且存在“灾难性遗忘”问题,即学习新任务时会丢掉旧技能。针对此问题,麻省理工学院研究者发表论文,揭示大模型遗忘现象规律与训练策略。
现代AI系统在学习新任务时易遗忘先前知识,限制了基础模型作为长期学习代理的能力。研究对比监督微调(SFT)和强化学习(RL)两种后训练方式,发现即便二者在新任务上表现相当,SFT常“牺牲旧知识”提升新任务,而RL能在学习新技能时更多保留原有能力。
研究揭示了“遗忘定律”,模型在新任务上微调时,遗忘程度可通过新任务上评估的微调策略和…
来源: 机器之心
◎ 文心X1.1发布!这三大能力突出,一手实测在此
百度在WAVE SUMMIT深度学习开发者大会2025上带来多项新成果。升级后的文心大模型X1.1在事实性、指令遵循、智能体等能力上显著提升。官方展示其在智能客服场景复杂长程任务中的应用,能自动拆分任务、调用工具执行。与文心大模型X1相比,X1.1的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%,在官方评测基准上整体效果超越DeepSeek R1 – 0528,比肩GPT – 5、Gemini 2.5 Pro。
实测中,文心大模型X1.1表现出色。逻辑推理方面,成功解决“星球版”农夫过河变体题;事实性检验上,能纠正“郑和发现美洲”的错误说法;指令遵循能力也很强,完成小红书…
来源: 量子位
◎ 文心新出的推理大模型,给了我们信心
当下大语言模型存在“幻觉”问题,OpenAI 研究指出消除幻觉需修正评分机制与开发新技术。而在 WAVE SUMMIT 深度学习开发者大会 2025 上,百度发布的文心大模型 X1.1 深度思考模型显著提升了“可信度”。
文心 X1.1 是 4 月份发布的旗舰模型 X1 的升级版,发布即上线,可免费体验,也通过百度智能云千帆平台向企业客户与开发者开放。升级后的模型在事实性、指令遵循、智能体和工具调用能力上综合提升,事实性提升 34.8%,指令遵循提升 12.5%,智能体提升 9.6%。它在处理复杂任务时表现出色,如复杂内容创作能调用联网搜索工具,处理共享单车平台多元素叠加问题有人工客服的效…
来源: 机器之心
◈ 09月08日 星期一 【 6 篇 】
◎ 全流程国产GPU,上下文提速100倍!中国科学院发布「线性复杂度」类脑大模型
中国科学院自动化研究所李国齐、徐波团队发布国产自主可控类脑脉冲大模型SpikingBrain (瞬悉)-1.0,该模型借鉴大脑神经元工作机制,在长序列处理上展现出显著优势。
研究背景:当前主流大模型基于Transformer架构,虽取得巨大成功,但存在功耗高、可解释性差等问题,且处理超长序列时开销大、能力受限。人脑作为通用智能系统,功耗低且结构功能丰富。因此,团队探索「基于内生复杂性」的通用智能实现方法,构建非Transformer的类脑基础模型架构。
核心技术:SpikingBrain – 1.0基于脉冲神经元构建线性(混合)模型架构,具有线性及近线性复杂度。为解决脉冲编码性能退化问题…
来源: 新智元
◎ Nano Banana有点ChatGPT时刻的味儿了
Nano Banana在社交媒体和技术社区引发了广泛关注,用户热衷于分享它的各种玩法,如将桌面手办转换成真人Cosplay、生成合成画、将火柴人升格成电影级动态分镜等。它的快速响应和自然度让AI图像生成变得像实时创作,短时间内为Gemini App带来超1000万新用户,给用户带来类似ChatGPT初期的惊艳感。
Nano Banana从根本上改善了AI图像创作流程。它让用户通过自然语言对话就能精确修改图像,在角色一致性上表现出色,只需一张图就能固定人物,在“长得像本人”方面与其他模型拉开代差。它还能无缝融合多张图像,整合了Gemini家族的世界知识与推理能力,执行指令更聪明。其数秒的响应…
来源: 硅星人Pro
◎ 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
随着AI技术的发展,推理已成为各大模型标配,业界开始意识到让大模型拥有像人类一样的「记忆」能力,是下一轮AI智能提升的关键。
「记忆」成为业界关注焦点:近期,Anthropic、谷歌、字节跳动等公司纷纷推出具备「记忆」功能的产品,OpenAI、xAI、Mistral AI等也在相关领域有所布局。此前,学术界已更早开始相关研究,如记忆张量在2023年底开始探索,其发布的Memory³模型引起关注;腾讯AI Lab专家研究员王琰也在同期从应用侧感知到「记忆」能力的重要性。
「记忆」是技术与应用的双重诉求:从技术层面看,过去通过堆算力、参数量提升大模型性能的方式边际效应下降,业界需要寻找新的技…
来源: 机器之心
◎ 微软开源3大突破AI Agent模型,仅140亿参数超越DeepSeek-R1
微软研究院开源了AI Agent推理模型rStar2 – Agent,它在多个方面表现出色且实现了技术突破。
模型表现优异:rStar2 – Agent仅140亿参数,在AIME24数学推理测试中准确率达80.6%,超过6710亿参数的DeepSeek – R1的79.8%。在GPQA – Diamond科学推理基准测试和BFCL v3智能体工具使用任务中,其准确率和任务完成率也超过了DeepSeek – V3,展现出强大泛化能力。
解决推理难题:OpenAI的O系列等领先模型通过延长推理链提升性能,但面对难题存在局限性,依赖内部自我反思纠错效果不佳。微软转向智能体强化学习,让模型与工具…
来源: AIGC开放社区
◎ 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
9月7日新智元十周年峰会重磅发布《2025新智元ASI前沿趋势报告》与《2025新智元ASI产业图谱》,预测2027年抵达ASI临界,智能体全面爆发,并揭晓创新大奖。
产业图谱洞察竞争格局:《2025新智元ASI产业图谱》按照权威逻辑框架和评价标准,对世界主流模型和产品进行归纳、排序与定位。数据采集广泛,涵盖七大权威数值排行榜和两个产品评价榜单。通过精细评分系统设计和多年行业经验,清晰反映AI领域产业发展现状和国内外竞争格局。
趋势报告预见智能新时代:《2025新智元ASI产业趋势报告》指出,AI智能发展加速,全球大模型迭代周期缩短,中国开源模型军团表现亮眼。目前GPT – 5有50%概…
来源: 新智元
◎ 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
Adam 及其改进版 AdamW 自 2014 年提出后,长期主导开放权重语言模型预训练。随着模型规模扩大,预训练计算开销增大,优化器设计对收敛速度与计算成本至关重要。
研究者探索了多种优化器改进方向,最快的优化器多采用矩阵型预条件子,能带来 30 – 40%的迭代级别加速。但斯坦福大学 Percy Liang 团队研究指出,虽有许多声称能显著加速的替代方案,AdamW 仍是预训练稳健首选,矩阵型方法在特定数据 – 模型比例下有优势。
研究者认为这可能源于两个方法论缺陷:一是不公平的超参数调优,基线模型调优不足,固定共享超参数不能保证比较公平;二是测试规模不足,多数测试用小型模型或遵循 …
来源: 机器之心
这个主题很棒,赞
收藏啦收藏啦
有啥改进意见,欢迎提出
精选内容有重复的😅
精选内容很好,方便查看