标签:视频理解

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

斯坦福大学李飞飞和吴佳俊团队推出了HourVideo,一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...

一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

智源研究院联合多所高校发布了超长视频理解大模型Video-XL,该模型利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,还在长视频理...

我用AI鉴宝,在潘家园被店主围攻了!

面壁科技推出的“小钢炮”MiniCPM-V 2.6模型以其出色的视频理解能力受到关注,该模型能够直接部署在iPad上。在潘家园的实地测试中,MiniCPM-V 2.6展现出了对复...

让「GPT-4V」跑在手机上,这家中国大模型公司做到了​

面壁公司最新发布的MiniCPM-V 2.6在端侧视频理解方面取得了重大突破,成功实现了与GPT-4V相媲美的性能。MiniCPM-V 2.6首次在端侧实现了单图、多图、视频理解...

智谱上线视频生成模型:30秒生成6秒时长,免费不限次!B 站也有研发功劳?

智谱 AI 推出了一款名为清影(Ying)的 AI 生成视频模型,该模型能够基于任意文字生成视频。用户可以通过输入文本提示(Prompt),选择不同的风格,如卡通3D...

AI 视频不只是视频生成!英伟达领投 5000 万,专注视频理解的这家公司值得关注

视频生成领域的竞争日益激烈,许多公司如Pika、Sora、Luma AI和国内的可灵等都在探索多模态视频生成技术。尽管视频生成技术备受关注,但其实际应用场景落地相...

免费AI“神器”第十五弹:哈佛研发的视频理解大模型问世;Infinity AI能一键生成电影| 钛媒体AGI

近期,人工智能生成内容(AIGC)领域推出了五款具有创新性的AI应用,进一步拓宽了人们对AI技术的想象。首先,MiniGPT4-Video由KAUST和哈佛大学联合开发,是一...

CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

视频理解技术旨在准确把握视频中的时空信息,但面临着短视频片段的时空冗余和复杂时空依赖关系的双重挑战。传统的三维卷积神经网络(CNN)和视频Transformer...

Pieter Abbeel 新工作“大世界模型”:轻松玩转 1 小时长视频,一对一 QA 视频内容细节

总结:伯克利人工智能实验室发布了名为“Large World Model(LWM)”的研究成果,这是一个能够处理长视频和超长文本任务的AI模型。LWM的核心在于其能够理解和预...