标签:多模态
统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
多模态大模型(MLLM)在视觉理解领域取得了显著进展,其中视觉指令调整方法因其数据和计算效率而被广泛应用。Meta和纽约大学的合作论文探讨了大型语言模型(L...
别再 chatbot 了,内容创作的 AI OS 时代从一块画布开始?
自1981年IBM推出个人计算机以来,人机交互方式经历了从命令行到图形界面的重大转变。如今,AI生产力工具也迎来了类似的革命。2023年,ChatGPT的出现强化了AI...
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...
Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型
亚马逊云科技在近期的re:Invent大会上发布了Nova系列大模型,包括Micro、Lite、Pro和Premier四个版本,其中后三者为多模态模型。尽管亚马逊已投资Anthropic,...
ChatGPT搜索,全球免费!Her动嘴实时搜,暴打谷歌边聊边搜
OpenAI宣布ChatGPT搜索功能向全球用户免费开放,包括移动端和桌面应用程序。这一更新标志着谷歌搜索市场面临新的竞争。ChatGPT搜索功能集成了多模态信息展示...
Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强
月之暗面公司宣布推出新的视觉思考模型k1,标志着其在数理化能力上的显著提升,与OpenAI的o1模型相比毫不逊色。k1模型能够识别图片中的文字,并解读背后的科...
王小川:AI医疗,代表了 AGI 之后更大的世界
百川智能作为一家专注于医疗领域的大模型创业公司,其创始人王小川在极客公园IF2025创新大会上分享了他对医疗方向、AGI(人工通用智能)及技术进程的深入思考...
ChatGPT 按提示词数秒完成游戏开发,程序员们该慌了
Lance Ulanoff通过两次不同的测试,体验了ChatGPT在游戏开发方面的显著进步。在2023年初,他首次尝试使用ChatGPT 1.0来开发一款名为Tic-Tac-Go的游戏,但由于...
细节表现超Sora,网友:真正的国产之光!MiniMax视频模型再上新
MiniMax近期推出了图生视频模型I2V-01-Live,专门优化了二次元效果,能够将静态二次元图片转化为流畅自然的动态视频,标志着其正式进入动漫领域。这一新模型...
谷歌发布Gemini2.0,开启Agent新时代
谷歌近日发布了其最新的AI模型Gemini 2.0,标志着公司在AI领域的重大进步。Gemini 2.0是首个实现原生多模态输入输出的模型,性能全面升级,速度是前代1.5 Pro...