标签:泛化能力
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
强化学习已成为推动人工智能向通用人工智能(AGI)发展的关键技术节点,但奖励模型的设计与训练一直是制约模型能力提升的瓶颈。当前,大语言模型通过Next Tok...
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
在大语言模型的后训练阶段,强化学习是提升模型能力、对齐人类偏好的核心方法,但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍
最近,来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员提出了一种名为「拖拽式大语言模型」(DnD)的创新方法,能够基于提示词快速生成模型参数...
智元曝光「机器人大模型」,但真正的核心,并不是机器人!
智元机器人近期发布的通用具身基座大模型GO-1,标志着机器人行业迈向了一个新的里程碑。GO-1的核心优势在于其强大的泛化能力和极简学习机制,能够在极少数据...
Figure亮出底牌了
Brett Adcock于2月21日宣布推出Figure的Helix模型,标志着人形机器人技术进入新阶段。作为与OpenAI终止合作后的首个核心技术成果,Helix通过整合视觉、语言理...
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
近期,AIME 2025 I数学竞赛中大语言模型的表现引发了广泛关注。 一些顶尖模型如o3-mini和DeepSeek-R1分别取得了78%和65%的高分,而部分较小的蒸馏模型也意外...
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
微软亚研院的全华人团队提出了一种名为rStar-Math的新算法,该算法通过三项技术创新,使得小型语言模型(SLM)在数学推理能力上取得了突破性进展,甚至超越了...
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
银河通用机器人发布了全球首个端到端具身抓取基础大模型GraspVLA,这是一个完全基于仿真合成大数据预训练的具身大模型,展现出比OpenVLA、π0、RT-2、RDT等模...
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...
Nature 子刊发表稳定学习新进展:面向多中心、大队列异质数据的「稳定」生存分析方法
崔鹏团队与国家蛋白质科学中心(北京)常乘团队在Nature Machine Intelligence期刊上发表了题为“Stable Cox Regression for Survival Analysis under Distrib...