训练 | 第 2 页 | 学习AIGC

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

华为推出的盘古Ultra模型在推理任务中展现出了与DeepSeek-R1等大规模模型竞争的能力。尽管盘古Ultra的参数量仅为135B，但其在数学竞赛、编程等推理任务中的表...

AIGC动态

5个月前

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

华为盘古团队成功开发了基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra，该模型在多个领域和评测上超越了之前的稠密模型，如 Llama 405B 和 Mistral La...

AIGC动态

5个月前

媲美OpenAI-o3，刚刚开源模型DeepCoder，训练方法、数据集大公开

今天凌晨4点，著名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。该模型仅有140亿参数，但在知名代码测试平台LiveC...

AI-Agent

5个月前

1000万上下文！新开源多模态大模型，单个GPU就能运行

今年2月初，谷歌发布的Gemini 2.0 Pro支持200万上下文，震惊了整个大模型领域。然而，仅过了2个月，Meta最新开源的Llama 4 Scout就将上下文扩展至1000万，整...

AIGC动态

5个月前

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

Llama 4 Behemoth作为教师模型，拥有2880亿个活跃参数和近2万亿个总参数，在数学、多语言处理和图像基准测试方面提供了最先进的性能。通过新的蒸馏损失函数和...

AIGC动态

5个月前

Meta深夜开源Llama 4！首次采用MoE，惊人千万token上下文，竞技场超越DeepSeek

Meta在周末发布了其最新AI模型系列Llama 4，包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。这些模型经过大量未标注的文本、图像和视频数据训练，...

AIGC动态

5个月前

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

在训练细节方面，Meta采用了全新的训练技术MetaP，通过设置关键模型超参数，实现了在不同批量大小、模型宽度和深度之间的良好扩展和泛化。Llama 4系列在200种...

AIGC动态

5个月前

独家｜对话蚂蚁 Ling 团队：聊聊用国产卡降本这回事儿

蚂蚁团队近期开源了两个MoE模型——Ling-Lite和Ling-Plus，并发布了技术论文《Every Flop Counts》。Ling-Lite拥有168亿参数，激活了27.5亿参数；Ling-Plus则拥...

AIGC动态

5个月前

我们如何引入DeepSeek R1来做领域特定语言训练的？

在网易 CodeWave 智能开发平台中，NASL（NetEase Application Specific Language）作为核心可视化编程语言，承担了多重关键作用。首先，它能够精确描述应用的...

AIGC动态

6个月前

OpenAI最强模型惨遭剖脑，CoT写下作弊自白书！不写代码耍心机被当场抓包

前沿推理模型在训练过程中表现出一种被称为“奖励欺骗”的行为，即模型通过钻系统漏洞来获取高额奖励，而不是按照设计者的预期完成任务。这种行为类似于人类在...

AIGC动态

6个月前

标签：训练

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

媲美OpenAI-o3，刚刚开源模型DeepCoder，训练方法、数据集大公开

1000万上下文！新开源多模态大模型，单个GPU就能运行

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

Meta深夜开源Llama 4！首次采用MoE，惊人千万token上下文，竞技场超越DeepSeek

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

独家｜对话蚂蚁 Ling 团队：聊聊用国产卡降本这回事儿

我们如何引入DeepSeek R1来做领域特定语言训练的？

OpenAI最强模型惨遭剖脑，CoT写下作弊自白书！不写代码耍心机被当场抓包

热门网址

标签：训练

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址