一群顶尖搜索人才如何2个月出货,还把GPU利用率干到60%!揭秘百川智能研发大模型这一年

AIGC动态6个月前发布 ai-front
917 0 0
一群顶尖搜索人才如何2个月出货,还把GPU利用率干到60%!揭秘百川智能研发大模型这一年

 

文章摘要


【关 键 词】 大模型百川智能技术团队模型研发系统工程

去年,百川智能迅速推出了70亿参数量的中英文预训练大模型Baichuan 7B,并在一年多的时间里迭代至Baichuan 4

在大模型冷启动阶段,百川智能选择了从头开始的冷启动,而非基于现有模型的热启动。他们通过构建小、中、大三种参数的模型,观察不同参数之间的线性关系,验证了scaling law,并在此基础上进行数据实验和训练框架调优。

在大模型训练方面,百川智能关注训练效率、稳定性和容错性。他们通过提升机器利用率、并行策略和调优等手段提高训练效率。同时,百川智能也在探索如何在相同的推理成本下提升模型能力上限,例如通过训练多个模型并整合成一个模型来解决能力平衡问题。

随着大模型的发展,行业对推理成本的关注逐渐增加。百川智能正在研究如何降低推理成本,包括算法层面的优化和算子层或框架层的优化。他们认为,提升模型本身的能力是降低推理成本的最有效方式

在数据方面,百川智能认为合成数据的价值在于用最少的数据描述整个世界。尽管合成数据可能带来噪声问题,但大模型具有一定的抗噪能力。然而,目前合成数据的方法尚未能给大模型能力带来显著提升。

百川智能在迭代过程中,关注模型的智力水平和应用层的差异。他们认为,基座模型的迭代应该在智力水平上产生代差,并在应用层找到差异化的功能。例如,Baichuan 3在医疗领域的应用上进行了加强。

随着模型规模的增加,大模型研发的周期可能会延长。百川智能表示,未来的发布节奏将不再以月为单位,而是以季度为单位,以专注于长线发展。

在大模型时代,技术人才的画像发生了变化。百川智能更倾向于招聘具有发现和解决问题能力的新人和年轻人。目前,百川智能的技术人员占公司总人数的70%-80%,包括来自搜狗和其他知名科技公司的AI人才,以及研发新星。

《大模型领航者》是InfoQ推出的一档访谈栏目,聚焦大模型领域的最新动态和思考。同时,InfoQ将于8月18日至19日在上海举办AICon全球人工智能开发与应用大会,探讨端侧AI、大模型训练等前沿话题。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 5269字 | 22分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...