AI 视频不只是视频生成!英伟达领投 5000 万,专注视频理解的这家公司值得关注

AIGC动态5个月前发布 Founder Park
932 0 0
AI 视频不只是视频生成!英伟达领投 5000 万,专注视频理解的这家公司值得关注

 

文章摘要


【关 键 词】 视频生成多模态技术视频理解AI平台投资热潮

视频生成领域的竞争日益激烈,许多公司如Pika、Sora、Luma AI和国内的可灵等都在探索多模态视频生成技术。尽管视频生成技术备受关注,但其实际应用场景落地相较于文本生成技术还有一定距离。

Twelve Labs是一家专注于视频理解的初创企业,其目标是让视频处理和搜索变得像文本一样简单。该公司由Jae Lee和Aiden L于2023年创立,两位创始人均具有丰富的计算机科学背景和行业经验。

Twelve Labs的人工智能平台能够帮助开发者创建视频搜索和生成能力,通过提取视频中的视觉、音频、文本和上下文信息,实现语义搜索、分析和洞察。该公司的愿景是构建多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。

Twelve Labs已经获得了包括英伟达在内的多家顶级风投机构的投资,截至2024年6月,已筹集了7700万美元的资金。该公司的创立愿景是实现视频内容的场景式理解,以提高视频内容在不同社交平台的传播效率。

为了解决这一问题,Twelve Labs建立了两个视频语言大模型:Pegasus-1和Marengo-2.6。Pegasus-1是一个具有800亿参数的视频语言模型,通过”视频优先”策略确保卓越的视频理解能力。

Marengo-2.6是一款多模态基础模型,擅长执行文本到视频、文本到图像和文本到音频等任意搜索任务,在MSR-VTT数据集上比Google的VideoPrism-G高出10%,在ActivityNet数据集上高出3%。

Twelve Labs的产品具有独特的优势,通过AIGC技术赋能,简化用户的工作流程。其产品功能包括视频搜索、视频分类、视频-语言建模、视频描述和摘要、视频问答等。

视频理解技术的发展为人工智能领域带来了新的机遇。Twelve Labs正通过视频理解开创感知推理,推出下一代多模态模型来模拟世界。

目前,Twelve Labs的客户主要是程序员和中小企业,通过提供API和PlugIn等方式快速扩张。该公司已经与多家公司达成合作,如FiftyOne等,共同为用户提供服务。

随着视频理解技术的不断进步,未来在该领域的竞争将变得异常激烈。我们正站在一个由AI技术引领的新时代的门槛上,视频内容的深度分析和理解将为我们打开一个全新的视角,让我们以前所未有的方式探索和理解世界。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3807字 | 16分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...