视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling Law

AIGC动态5个月前发布 QbitAI
1,084 0 0
视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling Law

 

文章摘要


【关 键 词】 大模型产业应用AI算法视觉AI多模态

大模型时代,如何将这些技术落地并实现产业应用成为了业界关注的焦点。中国公司格灵深瞳在这一领域取得了显著成就,其多模态大模型在多个权威数据集上的表现超越了OpenAI,展示了大模型在产业界的广泛应用潜力。格灵深瞳在银行安防、城市管理、商业零售和体育教育等多个领域实现了AI算法的规模化应用,落地案例超过10000个银行网点和1000个商业项目。

格灵深瞳的技术进步得益于其自研的视觉大模型Unicom v2,该模型在多业务数据集上的表现优于OpenAI的CLIP、Meta的DINOv2和苹果的DFN。基于Unicom的深瞳灵感-7B多模态大模型在业界同等规模的VLM模型中居领先地位。这些成果的背后,是格灵深瞳在大模型技术层面的持续探索和创新。

多模态大模型的出现,为传统视觉AI带来了革命性的变化。在ChatGPT的影响下,人们开始认识到算力与效果的正相关性,硬件也开始适配Transformer算法。视觉AI经历了从模块化到一体化的范式转变,大模型通过统一的Transformer骨干学习图像到特征再到应用输出的端到端映射。

格灵深瞳的Unicom系列模型正是这一转变的体现,通过扩大数据规模和计算规模,强化了模型的通用能力。结合语言模型,AI不仅“看到”世界,还能“看懂”世界,从而拓宽了应用边界。例如,在银行安防行业中,AI能够通过视频帧的连续输入和描述来判断场景是否属于打斗行为。

在工业质检领域,通用视觉大模型结合语言模型的多模态生成范式,使得AI能够智能识别缺陷并给出文字描述。此外,多模态大模型在系统中还承担了任务分配的“路由”作用,如格灵深瞳为银行提供的解决方案,形成了总-分-支三层架构,实现了跨网点、跨系统的数据和算力调度。

格灵深瞳在视觉大模型的进化过程中,采用了一种新颖的弱监督学习方式,通过特征聚类模型为无标签数据注入语义信息。这种方法使得无监督学习在视觉领域成为可能,为视觉大模型的数据规模扩大提供了新的思路。

展望未来,格灵深瞳正在探索超越Transformer的下一代架构,如基于RNN的RWKV序列建模方法,以降低推理时的计算复杂度。同时,公司将RWKV-CLIP代码和模型权重开源,促进业界共同进步。

在多模态大模型的应用上,格灵深瞳采取了与简单技术Demo不同的策略,深入产业场景,将AI算法与特定行业深度融合。公司十多年来在智慧金融、城市治理等领域的深耕细作,形成了独特的竞争壁垒。格灵深瞳的多模态大模型应用落地,不仅考虑了算法创新,还融入了丰富的行业知识和实践经验。

总之,大模型技术为构建行业AI应用提供了全新的技术范式,但技术只是实现愿景的工具,行业才是应用的土壤。格灵深瞳正是通过深耕行业,将技术创新与行业理解相结合,实现了AI技术的落地和产业应用。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3126字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...