标签:训练
RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
著名大模型训练平台Together.ai与Agentica联合开源了创新的AI Agent框架DeepSWE。该框架基于阿里最新开源的Qwen3-32B模型,完全通过强化学习训练而成。DeepSW...
媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令
腾讯最新开源的混元大模型Hunyuan-A13B,是一个拥有800亿参数的专家混合模型,其中130亿参数处于激活状态。该模型支持快速和慢速两种思考模式,分别适用于简...
仅凭一篇博客,他成功入职OpenAI!核心技术或用于GPT-5训练
Keller Jordan凭借一篇关于Muon优化器的博客成功加入OpenAI,这一事件引发了广泛关注。Muon优化器是一种为神经网络2D参数隐藏层设计的优化器,通过SGD-动量法...
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架,旨在提升大型推理模型在数学、编程和科学问题上的基本推...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
字节跳动首次开源了其代码模型Seed-Coder,该模型规模为8B,超越了Qwen3,并在多个基准测试中取得了领先地位。Seed-Coder通过自身生成和筛选高质量训练数据,...
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
阿里巴巴的研究人员最近发布了一项名为“ZeroSearch”的新技术,旨在降低训练AI系统进行信息搜索的成本和复杂性,并完全消除对昂贵商业搜索引擎API的需求。这项...
超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光
英伟达最新发布的Llama-Nemotron系列模型在推理性能和内存效率上超越了DeepSeek-R1,并且已经全面开源。这一系列模型包括LN-Nano 8B、LN-Super 49B和LN-Ultra...
小米入局大模型赛道!开源MiMo-7B,性能超o1-mini
小米近日宣布进军大模型领域,并开源了一款名为MiMo-7B的模型。尽管MiMo-7B仅有70亿参数,但其在多个测试中表现优异,在数学AIME24/25中分别达到68.2分和55.4...
Qwen3发布!超DeepSeek R1登顶开源榜,还带来了跟R1不同配方
阿里巴巴于4月29日凌晨发布了新一代通义千问Qwen3系列模型,涵盖8款不同尺寸,其中旗舰模型Qwen3 235B采用混合专家(MoE)架构,总参数量为235B,激活参数仅...