标签:训练

无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力

新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架,旨在提升大型推理模型在数学、编程和科学问题上的基本推...

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...

字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式

字节跳动首次开源了其代码模型Seed-Coder,该模型规模为8B,超越了Qwen3,并在多个基准测试中取得了领先地位。Seed-Coder通过自身生成和筛选高质量训练数据,...

拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了

阿里巴巴的研究人员最近发布了一项名为“ZeroSearch”的新技术,旨在降低训练AI系统进行信息搜索的成本和复杂性,并完全消除对昂贵商业搜索引擎API的需求。这项...

超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光

英伟达最新发布的Llama-Nemotron系列模型在推理性能和内存效率上超越了DeepSeek-R1,并且已经全面开源。这一系列模型包括LN-Nano 8B、LN-Super 49B和LN-Ultra...

小米入局大模型赛道!开源MiMo-7B,性能超o1-mini

小米近日宣布进军大模型领域,并开源了一款名为MiMo-7B的模型。尽管MiMo-7B仅有70亿参数,但其在多个测试中表现优异,在数学AIME24/25中分别达到68.2分和55.4...

Qwen3发布!超DeepSeek R1登顶开源榜,还带来了跟R1不同配方

阿里巴巴于4月29日凌晨发布了新一代通义千问Qwen3系列模型,涵盖8款不同尺寸,其中旗舰模型Qwen3 235B采用混合专家(MoE)架构,总参数量为235B,激活参数仅...

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

华为推出的盘古Ultra模型在推理任务中展现出了与DeepSeek-R1等大规模模型竞争的能力。尽管盘古Ultra的参数量仅为135B,但其在数学竞赛、编程等推理任务中的表...

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

华为盘古团队成功开发了基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra,该模型在多个领域和评测上超越了之前的稠密模型,如 Llama 405B 和 Mistral La...

媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开

今天凌晨4点,著名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。该模型仅有140亿参数,但在知名代码测试平台LiveC...
1 2