多模态学习 | 学习AIGC

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

来自字节跳动、北京大学等机构的研究者提出了Sa2VA模型，这是首个结合SAM-2和LLaVA-like架构的视频多模态大模型。该模型通过整合时空细粒度理解能力，实现了...

AIGC动态

7个月前

OpenAI 在亚洲的首届黑客松，这三个作品获奖了

OpenAI在新加坡与GovTech合作举办了亚洲首届黑客马拉松，主题为“为新加坡和世界公共利益的AI”。参赛者需将OpenAI API应用于公共利益实例。经过评审，三个项目...

AIGC动态

9个月前

斯坦福开源睡眠多模态大模型–SleepFM，

斯坦福大学研究人员开发了一款名为SleepFM的多模态大模型，专门针对医疗领域中的睡眠监测和分析。该模型能够自动识别并分类睡眠过程中的不同阶段，如清醒、浅...

AIGC动态

12个月前

智谱AI视频模型：免费使用，轻松制作6秒搞笑视频

智谱AI近期推出了一款名为“清影”的文生成视频模型，该模型允许用户通过文本或图片输入生成6秒的1440×960高清视频。这款模型对所有用户免费开放，支持PC和手机...

AIGC动态

1年前 (2024)

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

谷歌DeepMind研究团队提出了一种名为JEST（多模态对比学习与联合示例选择）的新算法，旨在解决大型语言模型（LLM）训练过程中的高能耗问题。JEST算法通过优化...

AIGC动态

1年前 (2024)

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

苹果和瑞士洛桑联邦理工学院的研究人员共同开发了4M-21，一个大规模多模态视觉模型，并于近日开源。该模型以其30亿参数量却能提供包括图像分类、目标检测、语...

AIGC动态

1年前 (2024)

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

LeCun和谢赛宁团队近日推出了Cambrian-1，一种采用以视觉为中心方法设计的多模态大语言模型（MLLM），并全面开源了模型权重、代码、数据集以及详细的指令微调...

AIGC动态

1年前 (2024)

谷歌创新框架：从非结构化数据，实现多模态学习

在数据爆炸时代，大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习，特别是处理多种输入和异构数据时，深度神经网络易出现过拟合和泛化不...

AIGC动态

1年前 (2024)

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

在2024年世界经济论坛上，图灵奖得主Yann LeCun提出了视频模型应该在抽象表征空间中进行预测的观点。本文研究者基于最优传输理论，提出了一种鲁棒的长视频学...

AIGC动态

2年前 (2024)

标签：多模态学习

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

OpenAI 在亚洲的首届黑客松，这三个作品获奖了

斯坦福开源睡眠多模态大模型–SleepFM，

智谱AI视频模型：免费使用，轻松制作6秒搞笑视频

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

谷歌创新框架：从非结构化数据，实现多模态学习

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

热门网址

标签：多模态学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址