一群顶尖搜索人才如何2个月出货，还把GPU利用率干到60%！揭秘百川智能研发大模型这一年

AIGC动态1年前 (2024)发布 ai-front

2,291 0 0

一群顶尖搜索人才如何2个月出货，还把GPU利用率干到60%！揭秘百川智能研发大模型这一年

文章摘要

【关键词】 大模型、百川智能、技术团队、模型研发、系统工程

去年，百川智能迅速推出了70亿参数量的中英文预训练大模型Baichuan 7B，并在一年多的时间里迭代至Baichuan 4。

在大模型冷启动阶段，百川智能选择了从头开始的冷启动，而非基于现有模型的热启动。他们通过构建小、中、大三种参数的模型，观察不同参数之间的线性关系，验证了scaling law，并在此基础上进行数据实验和训练框架调优。

在大模型训练方面，百川智能关注训练效率、稳定性和容错性。他们通过提升机器利用率、并行策略和调优等手段提高训练效率。同时，百川智能也在探索如何在相同的推理成本下提升模型能力上限，例如通过训练多个模型并整合成一个模型来解决能力平衡问题。

随着大模型的发展，行业对推理成本的关注逐渐增加。百川智能正在研究如何降低推理成本，包括算法层面的优化和算子层或框架层的优化。他们认为，提升模型本身的能力是降低推理成本的最有效方式。

在数据方面，百川智能认为合成数据的价值在于用最少的数据描述整个世界。尽管合成数据可能带来噪声问题，但大模型具有一定的抗噪能力。然而，目前合成数据的方法尚未能给大模型能力带来显著提升。

百川智能在迭代过程中，关注模型的智力水平和应用层的差异。他们认为，基座模型的迭代应该在智力水平上产生代差，并在应用层找到差异化的功能。例如，Baichuan 3在医疗领域的应用上进行了加强。

随着模型规模的增加，大模型研发的周期可能会延长。百川智能表示，未来的发布节奏将不再以月为单位，而是以季度为单位，以专注于长线发展。

在大模型时代，技术人才的画像发生了变化。百川智能更倾向于招聘具有发现和解决问题能力的新人和年轻人。目前，百川智能的技术人员占公司总人数的70%-80%，包括来自搜狗和其他知名科技公司的AI人才，以及研发新星。

《大模型领航者》是InfoQ推出的一档访谈栏目，聚焦大模型领域的最新动态和思考。同时，InfoQ将于8月18日至19日在上海举办AICon全球人工智能开发与应用大会，探讨端侧AI、大模型训练等前沿话题。

原文和模型

【原文链接】 阅读原文 [ 5269字 | 22分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # 大模型 # 技术团队 # 模型研发 # 百川智能 # 系统工程

文章版权归作者所有，未经允许请勿转载。

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

新智元

1,025

国家级AI赛事报名开启！全球精英同台竞技近20个热点赛题，大奖等你拿

新智元

1,238

对话智谱CEO张鹏：大家对大模型期待过高，“Scaling Law”确实不再涨了｜钛媒体AGI

钛媒体AGI

2,120

讲座预约丨AI4S 的前世今生：大语言模型与提示学习在科技研发中的应用与潜力丨GAIR Live

AI科技评论

1,890

大模型六小龙，第一个 IPO 要来了

极客公园

1,430

周鸿祎老师本次人工智能主题演讲20个核心观点

admin

2,276

暂无评论

暂无评论...

一群顶尖搜索人才如何2个月出货，还把GPU利用率干到60%！揭秘百川智能研发大模型这一年

文章摘要

原文和模型

AI小白怎么快速入坑大模型开发？

飞书，为何成为国内大模型独角兽们的共同选择？

相关文章

暂无评论

热门网址

热门文章

一群顶尖搜索人才如何2个月出货，还把GPU利用率干到60%！揭秘百川智能研发大模型这一年

文章摘要

原文和模型

AI小白怎么快速入坑大模型开发？

飞书，为何成为国内大模型独角兽们的共同选择？

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章