文章摘要
【关 键 词】 $ARTICLE_TAGS
新智元报道了一家名为“阶跃星辰”的初创公司在2024全球开发者先锋大会上发布了三个大型模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型和Step-2万亿参数MoE语言大模型预览版。这家公司是Scaling Law的信仰者,认为模型规模的不断扩大会带来性能的阶跃式提升,目标是实现人工通用智能(AGI)。
Step-1和Step-1V模型在多个应用中展现了强大的能力,包括聊天助手“跃问”、图像理解工具“一图读懂”和互动故事平台“冒泡鸭”。这些应用能够完成信息查询、语言学习、创意写作、图文解读等任务,并在多模态内容理解方面表现出色。
Step-1模型在短短两个月内完成训练,超越了GPT-3.5在逻辑推理、中文知识、英文知识、数学和代码方面的性能。Step-1V则在中国权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测榜单中位列第一,性能与GPT-4V相当。
阶跃星辰在实现万亿参数模型Step-2的过程中,面临了算力、系统、数据和算法四大挑战。公司通过自建机房和云上租用算力解决了算力问题,通过高效且稳定的系统设计提高了GPU使用效率,通过全球语料弥补了中文数据的不足,并在MoE稀疏架构训练方面取得了突破。
最后,文章指出,阶跃星辰认为多模态理解和生成的统一是通向AGI的必经之路。公司正按照既定路线推进大模型研发,从千亿参数模型到万亿参数模型,逐步迈向AGI的目标。
原文和模型
【原文链接】 阅读原文 [ 3569字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...