训练 | 学习AIGC

RL缩放王炸！DeepSWE开源AI Agent登顶榜首，训练方法、权重大公开

著名大模型训练平台Together.ai与Agentica联合开源了创新的AI Agent框架DeepSWE。该框架基于阿里最新开源的Qwen3-32B模型，完全通过强化学习训练而成。DeepSW...

AI-Agent

2个月前

媲美DeepSeek！腾讯开源新版混元模型：AI Agent强化，超30种智能体指令

腾讯最新开源的混元大模型Hunyuan-A13B，是一个拥有800亿参数的专家混合模型，其中130亿参数处于激活状态。该模型支持快速和慢速两种思考模式，分别适用于简...

AI-Agent

2个月前

仅凭一篇博客，他成功入职OpenAI！核心技术或用于GPT-5训练

Keller Jordan凭借一篇关于Muon优化器的博客成功加入OpenAI，这一事件引发了广泛关注。Muon优化器是一种为神经网络2D参数隐藏层设计的优化器，通过SGD-动量法...

AIGC动态

2个月前

无需人工标注！AI自生成训练数据，靠「演绎-归纳-溯因」解锁推理能力

新加坡国立大学、清华大学和Salesforce AI Research的研究者提出了一种名为“元能力对齐”的训练框架，旨在提升大型推理模型在数学、编程和科学问题上的基本推...

AIGC动态

3个月前

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...

AIGC动态

3个月前

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

字节跳动首次开源了其代码模型Seed-Coder，该模型规模为8B，超越了Qwen3，并在多个基准测试中取得了领先地位。Seed-Coder通过自身生成和筛选高质量训练数据，...

AIGC动态

4个月前

拜拜，昂贵的谷歌搜索 API！阿里开源 RL 框架让大模型自给自足、成本直降88%，网友：游戏规则变了

阿里巴巴的研究人员最近发布了一项名为“ZeroSearch”的新技术，旨在降低训练AI系统进行信息搜索的成本和复杂性，并完全消除对昂贵商业搜索引擎API的需求。这项...

AIGC动态

4个月前

超越DeepSeek-R1，英伟达开源新王登顶！14万H100小时训练细节全曝光

英伟达最新发布的Llama-Nemotron系列模型在推理性能和内存效率上超越了DeepSeek-R1，并且已经全面开源。这一系列模型包括LN-Nano 8B、LN-Super 49B和LN-Ultra...

AIGC动态

4个月前

小米入局大模型赛道！开源MiMo-7B，性能超o1-mini

小米近日宣布进军大模型领域，并开源了一款名为MiMo-7B的模型。尽管MiMo-7B仅有70亿参数，但其在多个测试中表现优异，在数学AIME24/25中分别达到68.2分和55.4...

AIGC动态

4个月前

Qwen3发布！超DeepSeek R1登顶开源榜，还带来了跟R1不同配方

阿里巴巴于4月29日凌晨发布了新一代通义千问Qwen3系列模型，涵盖8款不同尺寸，其中旗舰模型Qwen3 235B采用混合专家（MoE）架构，总参数量为235B，激活参数仅...

AIGC动态

4个月前

标签：训练

RL缩放王炸！DeepSWE开源AI Agent登顶榜首，训练方法、权重大公开

媲美DeepSeek！腾讯开源新版混元模型：AI Agent强化，超30种智能体指令

仅凭一篇博客，他成功入职OpenAI！核心技术或用于GPT-5训练

无需人工标注！AI自生成训练数据，靠「演绎-归纳-溯因」解锁推理能力

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

拜拜，昂贵的谷歌搜索 API！阿里开源 RL 框架让大模型自给自足、成本直降88%，网友：游戏规则变了

超越DeepSeek-R1，英伟达开源新王登顶！14万H100小时训练细节全曝光

小米入局大模型赛道！开源MiMo-7B，性能超o1-mini

Qwen3发布！超DeepSeek R1登顶开源榜，还带来了跟R1不同配方

热门网址

标签：训练

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址