模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
作者信息
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
【微 信 号】 AIGCOPEN
文章摘要
【关 键 词】 AIGC、微软、OpenAI、百度、讯飞星火
本文介绍了北卡罗来纳大学和Meta AI研究人员开源的视频字幕模型Video ReCap。
该模型能够处理长达2小时的视频,并在多个层级上生成字幕。
研究人员还推出了Ego4D-HCap数据集,用于评估模型性能。
实验结果显示,Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均超过多个基准模型。
此外,该模型生成的分层视频字幕还能显著提升长视频问答效果。
Video ReCap的核心技术是递归视频语言架构,由视频编码器、视频-语言对齐和递归文本解码器三大模块组成。
研究人员还在EgoSchema数据集上验证了模型,结果显示其性能显著提升。
原文信息
【原文链接】 阅读原文
【原文字数】 1211
【阅读时长】 5分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...