视频理解 | 学习AIGC

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

智谱开源的 GLM - 4.5V 模型是一款极具实力的开源视觉推理模型，在多领域展现出卓越性能。- 超强视觉推理与图像识别：GLM - 4.5V 参加“图寻”游戏全球积分赛，...

AI-Agent

2周前

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

豆包大模型1.6作为国内首款多模态SOTA模型，在火山引擎原动力大会上正式亮相。该模型支持256k上下文长度，具备深度思考能力，并首次实现GUI操作功能，形成'视...

AI-Agent

3个月前

碾压Cursor？谷歌突发Gemini 2.5 Pro 预览版，编码能力全网第一

谷歌在年度I/O开发者大会前夕，发布了Gemini 2.5 Pro Preview（I/O版），这是其旗舰AI模型的升级版本。该模型在多项主流基准测试中表现优异，特别是在编程和W...

AIGC动态

4个月前

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

来自字节跳动、北京大学等机构的研究者提出了Sa2VA模型，这是首个结合SAM-2和LLaVA-like架构的视频多模态大模型。该模型通过整合时空细粒度理解能力，实现了...

AIGC动态

7个月前

新年大礼！阿里刚开源视觉 AI Agent模型—Qwen2.5-VL

阿里巴巴最新发布了视觉多模态模型Qwen2.5-VL，该模型在图像、文本、视频的理解与识别能力上显著增强，并且具备直接作为视觉Agent自动化操作电脑和手机的独特...

AI-Agent

7个月前

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

斯坦福大学李飞飞和吴佳俊团队推出了HourVideo，一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...

AIGC动态

10个月前

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL，这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...

AIGC动态

10个月前

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

智源研究院联合多所高校发布了超长视频理解大模型Video-XL，该模型利用语言模型的原生能力对长视觉序列进行压缩，不仅保留了短视频理解的能力，还在长视频理...

AIGC动态

10个月前

我用AI鉴宝，在潘家园被店主围攻了！

面壁科技推出的“小钢炮”MiniCPM-V 2.6模型以其出色的视频理解能力受到关注，该模型能够直接部署在iPad上。在潘家园的实地测试中，MiniCPM-V 2.6展现出了对复...

AIGC动态

1年前 (2024)

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

面壁公司最新发布的MiniCPM-V 2.6在端侧视频理解方面取得了重大突破，成功实现了与GPT-4V相媲美的性能。MiniCPM-V 2.6首次在端侧实现了单图、多图、视频理解...

AI-Agent

1年前 (2024)

标签：视频理解

是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

碾压Cursor？谷歌突发Gemini 2.5 Pro 预览版，编码能力全网第一

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

新年大礼！阿里刚开源视觉 AI Agent模型—Qwen2.5-VL

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

我用AI鉴宝，在潘家园被店主围攻了！

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

热门网址

标签：视频理解

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址