标签:多模态
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
李飞飞和谢赛宁团队的最新研究发现,多模态大型语言模型(MLLM)展现出了记忆和回忆空间的能力,甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间...
豆包说要「普惠」,于是大模型处理图片按「厘」计价了
近期,字节跳动在2024冬季火山引擎FORCE原动力大会上推出了豆包大模型家族的新成员——豆包・视觉理解模型,该模型具备强大的视觉理解能力,能够处理复杂视觉问...
钛媒体AGI独家|上海国资和腾讯联手投资,“大模型六虎”阶跃星辰获数亿美元B轮融资
AI大模型独角兽阶跃星辰已完成B轮融资,总金额达数亿美元,投资方包括上海国有资本投资有限公司及其旗下基金,腾讯投资、五源资本、启明创投等。融资将用于基...
统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
多模态大模型(MLLM)在视觉理解领域取得了显著进展,其中视觉指令调整方法因其数据和计算效率而被广泛应用。Meta和纽约大学的合作论文探讨了大型语言模型(L...
别再 chatbot 了,内容创作的 AI OS 时代从一块画布开始?
自1981年IBM推出个人计算机以来,人机交互方式经历了从命令行到图形界面的重大转变。如今,AI生产力工具也迎来了类似的革命。2023年,ChatGPT的出现强化了AI...
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...
Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型
亚马逊云科技在近期的re:Invent大会上发布了Nova系列大模型,包括Micro、Lite、Pro和Premier四个版本,其中后三者为多模态模型。尽管亚马逊已投资Anthropic,...
ChatGPT搜索,全球免费!Her动嘴实时搜,暴打谷歌边聊边搜
OpenAI宣布ChatGPT搜索功能向全球用户免费开放,包括移动端和桌面应用程序。这一更新标志着谷歌搜索市场面临新的竞争。ChatGPT搜索功能集成了多模态信息展示...
Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强
月之暗面公司宣布推出新的视觉思考模型k1,标志着其在数理化能力上的显著提升,与OpenAI的o1模型相比毫不逊色。k1模型能够识别图片中的文字,并解读背后的科...
王小川:AI医疗,代表了 AGI 之后更大的世界
百川智能作为一家专注于医疗领域的大模型创业公司,其创始人王小川在极客公园IF2025创新大会上分享了他对医疗方向、AGI(人工通用智能)及技术进程的深入思考...