如今的智能体，已经像人一样「浏览」视频了，国内就有

AI-Agent8个月前发布 almosthuman2014

1,288 0 0

文章摘要

英伟达推出的NVIDIA AI Blueprint是一款预训练的、可自定义的AI工作流，旨在帮助开发者构建和部署生成式AI应用程序。它通过为视频配置“双眼与大脑”，提高了搜索效率并扩展了人与数字世界的互动方式。在测试中，Blueprint在视频问答方面表现出色，能够回答关于事件发生时间和对象状态的问题，但在细节识别上存在不足。目前，Blueprint仍处于早期申请使用制阶段，存在流量限制和验证问题，试用体验有待提升。

除了Blueprint，还有开源的多模态智能体框架OmAgent，它支持快速开发面向设备的智能体系统，为各类硬件设备赋能。OmAgent遵循基于图的工作流编排、原生多模态和设备中心化的设计理念，简化了设备与AI模型的结合过程。项目提供了6个示例项目，展示了搭建智能体的完整过程，其中视频理解智能体工作流被EMNLP 2024收录，实现了与Blueprint相似的功能。

OmAgent在视频问答方面表现出色，能够正确定位事件和时间，甚至支持音频信息和超长视频索引。在测试中，OmAgent能够应对复杂视频素材，如《双城之战》第二季，准确回答剧情相关问题。除了视频问答，OmAgent的最大特点是将智能体直接应用于硬件设备，如穿衣搭配推荐智能体，能够根据用户需求和衣橱信息提供穿衣建议，实现多轮沟通以确定需求并返回最佳搭配方案。