如今的智能体,已经像人一样「浏览」视频了,国内就有
文章摘要
【关 键 词】 AI应用、视频问答、多模态、智能体、硬件赋能
英伟达推出的NVIDIA AI Blueprint是一款预训练的、可自定义的AI工作流,旨在帮助开发者构建和部署生成式AI应用程序。它通过为视频配置“双眼与大脑”,提高了搜索效率并扩展了人与数字世界的互动方式。在测试中,Blueprint在视频问答方面表现出色,能够回答关于事件发生时间和对象状态的问题,但在细节识别上存在不足。目前,Blueprint仍处于早期申请使用制阶段,存在流量限制和验证问题,试用体验有待提升。
除了Blueprint,还有开源的多模态智能体框架OmAgent,它支持快速开发面向设备的智能体系统,为各类硬件设备赋能。OmAgent遵循基于图的工作流编排、原生多模态和设备中心化的设计理念,简化了设备与AI模型的结合过程。项目提供了6个示例项目,展示了搭建智能体的完整过程,其中视频理解智能体工作流被EMNLP 2024收录,实现了与Blueprint相似的功能。
OmAgent在视频问答方面表现出色,能够正确定位事件和时间,甚至支持音频信息和超长视频索引。在测试中,OmAgent能够应对复杂视频素材,如《双城之战》第二季,准确回答剧情相关问题。除了视频问答,OmAgent的最大特点是将智能体直接应用于硬件设备,如穿衣搭配推荐智能体,能够根据用户需求和衣橱信息提供穿衣建议,实现多轮沟通以确定需求并返回最佳搭配方案。
原文和模型
【原文链接】 阅读原文 [ 1426字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...