效率优化 | 学习AIGC

单卡也能跑万帧！智源发布Video-XL-2，速度、效果、长度全拉满

智源研究院近日发布了新一代超长视频理解模型Video-XL-2，该模型在长视频理解任务中表现出色，显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...

AIGC动态

3个月前

长视频理解作为多模态大模型的关键能力之一，尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展，但开源模型在效果、计算开销和运行效率等方面仍存...

AIGC动态

3个月前

一段AI智能体通过加密声波进行高效对话的视频引发广泛关注。两个AI在电话沟通中识别出彼此身份后，立即切换为高频声波通信模式，其对话内容经解码显示为酒店...

AIGC动态

6个月前

字节跳动智能创作AR团队与豆包大模型团队联合开发的Video Depth Anything（VDA）模型，针对单目深度估计在视频领域的应用难题取得了突破。VDA基于Depth Anyth...

AIGC动态

7个月前

谷歌发布了Gemini 1.5系列多模态大模型的技术报告，该系列模型代表了高计算效率的下一代技术。报告指出，Gemini 1.5能够处理数百万token的上下文，并具备强大...

AIGC动态

1年前 (2024)

这篇文章介绍了北大和字节跳动合作开发的新方法——Visual Autoregressive Modeling（VAR），旨在改进图像生成的质量和效率。VAR采用了预测下一级分辨率的方式...

AIGC动态

1年前 (2024)