泛化能力 | 学习AIGC

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习已成为推动人工智能向通用人工智能（AGI）发展的关键技术节点，但奖励模型的设计与训练一直是制约模型能力提升的瓶颈。当前，大语言模型通过Next Tok...

AIGC动态

1个月前

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

在大语言模型的后训练阶段，强化学习是提升模型能力、对齐人类偏好的核心方法，但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...

AIGC动态

1个月前

LLM进入「拖拽时代」！只靠Prompt，几秒定制一个大模型，效率飙升12000倍

最近，来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员提出了一种名为「拖拽式大语言模型」（DnD）的创新方法，能够基于提示词快速生成模型参数...

AIGC动态

2个月前

智元曝光「机器人大模型」，但真正的核心，并不是机器人！

智元机器人近期发布的通用具身基座大模型GO-1，标志着机器人行业迈向了一个新的里程碑。GO-1的核心优势在于其强大的泛化能力和极简学习机制，能够在极少数据...

AIGC动态

5个月前

Figure亮出底牌了

Brett Adcock于2月21日宣布推出Figure的Helix模型，标志着人形机器人技术进入新阶段。作为与OpenAI终止合作后的首个核心技术成果，Helix通过整合视觉、语言理...

AIGC动态

6个月前

o3-mini数学推理暴打DeepSeek-R1？AIME 2025初赛曝数据集污染大瓜

近期，AIME 2025 I数学竞赛中大语言模型的表现引发了广泛关注。一些顶尖模型如o3-mini和DeepSeek-R1分别取得了78%和65%的高分，而部分较小的蒸馏模型也意外...

AIGC动态

6个月前

7B模型数学推理击穿o1，直逼全美20%尖子生！四轮进化，微软华人新作爆火

微软亚研院的全华人团队提出了一种名为rStar-Math的新算法，该算法通过三项技术创新，使得小型语言模型（SLM）在数学推理能力上取得了突破性进展，甚至超越了...

AIGC动态

7个月前

真机数据白采了？银河通用具身VLA大模型已充分泛化，预训练基于仿真合成大数据！

银河通用机器人发布了全球首个端到端具身抓取基础大模型GraspVLA，这是一个完全基于仿真合成大数据预训练的具身大模型，展现出比OpenVLA、π0、RT-2、RDT等模...

AIGC动态

7个月前

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

斯坦福大学的研究团队在多模态语言模型领域取得了新进展，提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...

AIGC动态

8个月前

Nature 子刊发表稳定学习新进展：面向多中心、大队列异质数据的「稳定」生存分析方法

崔鹏团队与国家蛋白质科学中心（北京）常乘团队在Nature Machine Intelligence期刊上发表了题为“Stable Cox Regression for Survival Analysis under Distrib...

AIGC动态

8个月前

标签：泛化能力

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

LLM进入「拖拽时代」！只靠Prompt，几秒定制一个大模型，效率飙升12000倍

智元曝光「机器人大模型」，但真正的核心，并不是机器人！

Figure亮出底牌了

o3-mini数学推理暴打DeepSeek-R1？AIME 2025初赛曝数据集污染大瓜

7B模型数学推理击穿o1，直逼全美20%尖子生！四轮进化，微软华人新作爆火

真机数据白采了？银河通用具身VLA大模型已充分泛化，预训练基于仿真合成大数据！

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

Nature 子刊发表稳定学习新进展：面向多中心、大队列异质数据的「稳定」生存分析方法

热门网址

标签：泛化能力

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址