WAIC 最具技术想象力成果发布：新架构面壁小钢炮又一次验证并加速了面壁定律

AIGC动态1年前 (2024)发布 aitechtalk

1,789 0 0

文章摘要

【关键词】 AI技术、GPT-3、面壁智能、端侧模型、知识密度

2020年，1750亿参数规模的GPT-3模型问世，其训练成本高昂，需要使用1000张英伟达A100 GPU，花费81.6万美元，耗时22天。然而，到了2024年，只需2B参数规模的大模型就能达到与GPT-3相当的性能表现。

面壁智能提出的面壁定律指出，大模型的知识密度（模型能力/推理算力能耗）平均每8个月提升一倍。

面壁智能推出的端侧多模态大模型MiniCPM-Llama3-V 2.5，实现了以最小参数撬动最强性能的平衡点。

其后续推出的MiniCPM小钢炮旗舰端侧大模型系列，包括MiniCPM 2.4B+1.2B基座模型、可对标GPT-4V的MiniCPM-V端侧多模态模型等，整体知识密度相比GPT-3提高了约86倍。

面壁智能还在2024年世界人工智能大会上发布了高效稀疏模型MiniCPM-S和全栈式工坊MobileCPM。

MiniCPM-S采用了ProSparse稀疏激活解决方案，通过ReLU激活函数和稀疏感知训练，将神经元激活比例降至约10%，实现了2.8倍的推理速度提升和84%的FFN模块成本降低，知识密度相比稠密模型提升2.57倍。

MobileCPM旨在降低开发者门槛，实现大模型与APP的无缝对接。

它提供基础模式、精装模式和全包配件模式，支持任意端侧模型的集成，大幅降低开发者开发大模型应用的成本。

MobileCPM已全面支持iOS系统，Android版本也即将发布。

面壁智能在AGI技术研究领域走在前沿，成为大模型行业发展的风向标。

其联合创始人&CEO李大海表示，到2026年年底，面壁将实现GPT-4水平的端侧模型。

面壁智能一直在探索大模型落地的各种途径，服务过大B企业，涉及金融、营销、法律、内容等领域。

其首席科学家刘知远还透露了穿戴设备、智能硬件等更多端侧AI场景和应用，预示着端侧AI生态的序幕即将拉开。

面壁智能将重点聚焦端侧，做离用户最近的事情，推动高效大模型的发展。

原文和模型

【原文链接】 阅读原文 [ 3466字 | 14分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # GPT-GPTs # 大模型 # AI技术 # GPT-3 # 知识密度 # 端侧模型 # 面壁智能

文章版权归作者所有，未经允许请勿转载。

谁给狂热的人形机器人「泼冷水」？

admin

2,722

对话钉钉总裁叶军：为 AI 狂奔 18 个月，到底值不值？

极客公园

2,218

MiniMax创始人闫俊杰：如果10年后全球只剩5家大模型公司，第二名一定是中国企业｜钛媒体AGI

钛媒体AGI

3,590

在MWC上，找到人类的下一台PC

硅星人Pro

2,070

钛媒体独家｜人民网打造Sora场景的全球最大中文语料库？内部人士回应：这是新业务方向

钛媒体AGI

2,363

对话乐道俞斌：乐道 L60是蔚来对家庭用车的降维打击

硅星人Pro

1,889

暂无评论

暂无评论...

WAIC 最具技术想象力成果发布：新架构面壁小钢炮又一次验证并加速了面壁定律

文章摘要

原文和模型

8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

AI视频创作一条龙！达摩院“寻光”平台炸场WAIC，突破可控编辑难题

相关文章

暂无评论

热门网址

热门文章

WAIC 最具技术想象力成果发布：新架构面壁小钢炮又一次验证并加速了面壁定律

文章摘要

原文和模型

8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

AI视频创作一条龙！达摩院“寻光”平台炸场WAIC，突破可控编辑难题

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章