标签:技术方案

还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

随着短视频在社交媒体的流行,竖屏视频成为了主流的视频格式。然而,传统视频处理技术主要集中在横屏视频上,忽视了竖屏视频的独特性。为了弥补这一研究空白...

LLaMA-VID:突破视觉语言模型界限,精准捕捉图像精髓

LLaMA-VID模型的主要目标是处理长时视频,并面临着挑战。为了解决这些挑战,采用了创新的方法。该模型的技术方案包括采用了关键Token,并详细描述了其作用。L...