最长处理2小时,开源视频字幕模型Video ReCap

AIGC动态10个月前发布 AIGCOPEN
1,002 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

作者信息


【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
【微 信 号】 AIGCOPEN

最长处理2小时,开源视频字幕模型Video ReCap
 

文章摘要


【关 键 词】 AIGC微软OpenAI百度讯飞星火

本文介绍了北卡罗来纳大学和Meta AI研究人员开源的视频字幕模型Video ReCap。

该模型能够处理长达2小时的视频,并在多个层级上生成字幕。

研究人员还推出了Ego4D-HCap数据集,用于评估模型性能。

实验结果显示,Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均超过多个基准模型。

此外,该模型生成的分层视频字幕还能显著提升长视频问答效果。

Video ReCap的核心技术是递归视频语言架构,由视频编码器、视频-语言对齐和递归文本解码器三大模块组成。

研究人员还在EgoSchema数据集上验证了模型,结果显示其性能显著提升。

原文信息


【原文链接】 阅读原文
【原文字数】 1211
【阅读时长】 5分钟

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...