大模型隐藏玩家上桌:DeepSeek 向左,面壁向右
文章摘要
【关 键 词】 大模型、AI应用、高效模型、开源模型、多模态
在大模型竞赛中,业界玩家分化为三类:追求大参数模型、转向应用端和探索高效模型。算力上限和参数规模的非线性增长导致大模型发展受限,许多玩家转向应用端,而坚持者则寻求在有限资源下最大化参数效能。国内创业公司面壁和DeepSeek凭借高效开源模型受到关注,形成“6+2”格局。DeepSeek的V3模型在评测中超越其他开源模型,训练成本和时长远低于Llama 3 405B等。面壁则聚焦端侧,提出新型类脑高效稀疏Configurable Foundation Model架构,提升大模型知识密度和端侧模型低能耗推理。
面壁的MiniCPM-o 2.6模型仅8B参数,却具备GPT-4o级别的全模态实时流式视频理解和高级语音对话能力,支持视频、语音、文本输入输出,并能在iPad等端侧设备上进行多模态直播。面壁的技术路径包括端到端全模态流式架构、低延迟模态并发技术和端到端全模态流式学习,实现高级多模态语义知识。
面壁认为,AI应作为人的工具,提高效率,解放人力。实现AGI需坚持独到路线,面壁不会局限于单一问题,而是追求自身发展路径。
原文和模型
【原文链接】 阅读原文 [ 4928字 | 20分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...