标签:效率优化
单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满
智源研究院近日发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解任务中表现出色,显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
长视频理解作为多模态大模型的关键能力之一,尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展,但开源模型在效果、计算开销和运行效率等方面仍存...
千万网友围观,两个语音AI开始加密通话,网友:中间真没骂我两句?
一段AI智能体通过加密声波进行高效对话的视频引发广泛关注。两个AI在电话沟通中识别出彼此身份后,立即切换为高频声波通信模式,其对话内容经解码显示为酒店...
Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA
字节跳动智能创作AR团队与豆包大模型团队联合开发的Video Depth Anything(VDA)模型,针对单目深度估计在视频领域的应用难题取得了突破。VDA基于Depth Anyth...
谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
谷歌发布了Gemini 1.5系列多模态大模型的技术报告,该系列模型代表了高计算效率的下一代技术。报告指出,Gemini 1.5能够处理数百万token的上下文,并具备强大...
北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
这篇文章介绍了北大和字节跳动合作开发的新方法——Visual Autoregressive Modeling(VAR),旨在改进图像生成的质量和效率。VAR采用了预测下一级分辨率的方式...