英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑

AIGC动态9个月前发布 AIera
1,141 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
 

文章摘要


【关 键 词】 Nemotron-4英伟达150亿参数通用大模型多语言

英伟达近期推出了具有150亿参数Nemotron-4模型,旨在打造一个能在单个A100/H100 GPU上运行的通用大模型

该模型在英语、多语言和编码任务上表现出色,性能甚至超过参数规模更大的模型。

Nemotron-4 15B在8万亿token的数据集上进行训练,包括英语、多语言和源代码数据。

模型采用纯解码器Transformer架构,并采用分组查询关注技术以提高推理速度和降低内存占用。

在多个评估基准上,Nemotron-4 15B展现了强大的常识推理、数学和代码处理能力,以及在多语言分类和生成任务中的卓越表现。

此外,Nemotron-4 15B在机器翻译任务中也显示出显著的优势,特别是在中文翻译成其他语言方面。

原文信息


【原文链接】 阅读原文
【阅读预估】 1842 / 8分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明

相关文章

暂无评论

暂无评论...