标签:多模态

o3 都要来了还能做点什么?人大&蚂蚁团队:自下而上数据合成让大模型能够多模态推理

中国人民大学高瓴人工智能学院与蚂蚁技术研究院的研究团队在EMNLP 2024上提出了一种视觉推理框架,旨在提升视觉语言模型的多模态推理能力。该框架基于“由浅入...

模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子

在人工智能国际顶会NeurIPS 2024上,大模型评测成为焦点,7000余篇投稿与之相关。去年,评测榜单因刷榜行为受争议,如C-Eval和SuperCLUE。评测大模型比构建更...

阶跃星辰完成数亿美元 B 轮融资,突围大模型决赛圈

阶跃星辰,作为大模型“六小虎”之一,近日完成了数亿美元的B轮融资,投资方包括上海国有资本投资有限公司及其旗下基金,以及腾讯投资、五源资本、启明创投等。...

李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!

李飞飞和谢赛宁团队的最新研究发现,多模态大型语言模型(MLLM)展现出了记忆和回忆空间的能力,甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间...

豆包说要「普惠」,于是大模型处理图片按「厘」计价了

近期,字节跳动在2024冬季火山引擎FORCE原动力大会上推出了豆包大模型家族的新成员——豆包・视觉理解模型,该模型具备强大的视觉理解能力,能够处理复杂视觉问...

钛媒体AGI独家|上海国资和腾讯联手投资,“大模型六虎”阶跃星辰获数亿美元B轮融资

AI大模型独角兽阶跃星辰已完成B轮融资,总金额达数亿美元,投资方包括上海国有资本投资有限公司及其旗下基金,腾讯投资、五源资本、启明创投等。融资将用于基...

统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与

多模态大模型(MLLM)在视觉理解领域取得了显著进展,其中视觉指令调整方法因其数据和计算效率而被广泛应用。Meta和纽约大学的合作论文探讨了大型语言模型(L...

别再 chatbot 了,内容创作的 AI OS 时代从一块画布开始?

自1981年IBM推出个人计算机以来,人机交互方式经历了从命令行到图形界面的重大转变。如今,AI生产力工具也迎来了类似的革命。2023年,ChatGPT的出现强化了AI...

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...

Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型

亚马逊云科技在近期的re:Invent大会上发布了Nova系列大模型,包括Micro、Lite、Pro和Premier四个版本,其中后三者为多模态模型。尽管亚马逊已投资Anthropic,...
1 2 3 4 5 23