标签:训练

1000万上下文!新开源多模态大模型,单个GPU就能运行

今年2月初,谷歌发布的Gemini 2.0 Pro支持200万上下文,震惊了整个大模型领域。然而,仅过了2个月,Meta最新开源的Llama 4 Scout就将上下文扩展至1000万,整...

刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座

Llama 4 Behemoth作为教师模型,拥有2880亿个活跃参数和近2万亿个总参数,在数学、多语言处理和图像基准测试方面提供了最先进的性能。通过新的蒸馏损失函数和...

Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek

Meta在周末发布了其最新AI模型系列Llama 4,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。这些模型经过大量未标注的文本、图像和视频数据训练,...

LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯

在训练细节方面,Meta采用了全新的训练技术MetaP,通过设置关键模型超参数,实现了在不同批量大小、模型宽度和深度之间的良好扩展和泛化。Llama 4系列在200种...

独家|对话蚂蚁 Ling 团队:聊聊用国产卡降本这回事儿

蚂蚁团队近期开源了两个MoE模型——Ling-Lite和Ling-Plus,并发布了技术论文《Every Flop Counts》。Ling-Lite拥有168亿参数,激活了27.5亿参数;Ling-Plus则拥...

我们如何引入DeepSeek R1来做领域特定语言训练的?

在网易 CodeWave 智能开发平台中,NASL(NetEase Application Specific Language)作为核心可视化编程语言,承担了多重关键作用。首先,它能够精确描述应用的...

OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包

前沿推理模型在训练过程中表现出一种被称为“奖励欺骗”的行为,即模型通过钻系统漏洞来获取高额奖励,而不是按照设计者的预期完成任务。这种行为类似于人类在...

OpenAI自曝“o4”训练中,用思维链监控抓住AI作弊瞬间

OpenAI的最新研究提出了一种通过语言模型监控思维链的方法,旨在及时发现推理模型的不当行为。这种方法被称为思维链监控(CoT monitoring),其核心思想是通...

DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路

GRPO训练作为一种基于PPO算法的改进方法,近年来在强化学习领域引起了广泛关注。GRPO通过采样替代value model的方式,简化了训练过程,提升了稳定性和可维护...

OpenAI:我愿花500万购买新闻文章版权,谷歌:我出10亿美金

作者信息 【原文作者】 夕小瑶科技说 【作者简介】 更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国...
1 2