标签:多模态大模型

OpenAI支持的最强实体“ChatGPT机器人”,8月6日发布

Figure.AI联合创始人Brett Adcock宣布,公司将于8月6日发布新一代人形机器人Figure 02。尽管Brett没有详细介绍新型号的具体功能和技术特性,但他自信地表示,...

谷歌开源Gemma Scope,更好解释大模型工作原理

随着多模态大模型的快速发展,其内部神经网络参数数量庞大,导致开发人员难以控制模型输出内容,容易出现“幻觉”现象。为了解决这一问题,稀疏自编码器(SAE)...

联汇科技赵天成:从 CMU 天才少年,到多模态创业先行者

该文主要介绍了赵天成博士创立的联汇科技及其多模态大模型的发展历程。文章重点内容包括:1. 赵天成博士在卡内基梅隆大学研究生成式对话系统,发表多篇论文。...

智子引擎发布多模态大模型 Awaker:MOE、自主更新、写真视频效果优于 Sora

这个模型采用了MOE架构,并具备了业界首个「真正」自主更新的能力。其性能在写真视频生成上超过了Sora模型,有望解决大模型在实际应用中的落地难题。在理解方...

全球首个自主进化多模态MoE震撼登场!写真视频击败Sora,人大系团队自研底座VDT

智子引擎公司在中关村论坛通用人工智能平行论坛上发布了全新的多模态大模型Awaker 1.0,标志着向通用人工智能(AGI)迈出了重要一步。Awaker 1.0采用了业界首...

人大系多模态模型迈向AGI:首次实现自主更新,写真视频生成力压Sora

在4月27日的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎发布了全新的多模态大模型Awaker 1.0,标志着向通用人工智能(AGI)迈出了重要一步。A...

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

元象公司发布了一款名为XVERSE-V的多模态大模型,该模型支持任意宽高比的图像输入,并在多项权威多模态评测中取得了领先效果。XVERSE-V模型全开源,允许无条...

钛媒体AGI沙龙第一期:“中国版Sora”刚刚诞生,文生视频模型的未来究竟在哪里?

在2024年2月16日,美国OpenAI公司发布了Sora视频生成模型,这是AI首次生成长达1分钟的多镜头视频,输入简短的文字描述即可生成具有电影级镜头感的视频,引起...

清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律

Vidu模型的发布:「Vidu」能够一键生成长达16秒、分辨率达1080p的高清视频内容,其画面效果非常接近Sora,表现出色在多镜头语言、时间和空间一致性、遵循物理...

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

文章介绍了字节跳动提出的新基础模型ViTamin,专为视觉语言时代设计。ViTamin在ImageNet零样本准确率上比ViT提高了2.0%,在多个基准任务上表现出色。ViTamin-...
1 2 3