标签:多模态

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...

Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型

亚马逊云科技在近期的re:Invent大会上发布了Nova系列大模型,包括Micro、Lite、Pro和Premier四个版本,其中后三者为多模态模型。尽管亚马逊已投资Anthropic,...

ChatGPT搜索,全球免费!Her动嘴实时搜,暴打谷歌边聊边搜

OpenAI宣布ChatGPT搜索功能向全球用户免费开放,包括移动端和桌面应用程序。这一更新标志着谷歌搜索市场面临新的竞争。ChatGPT搜索功能集成了多模态信息展示...

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

月之暗面公司宣布推出新的视觉思考模型k1,标志着其在数理化能力上的显著提升,与OpenAI的o1模型相比毫不逊色。k1模型能够识别图片中的文字,并解读背后的科...

王小川:AI医疗,代表了 AGI 之后更大的世界

百川智能作为一家专注于医疗领域的大模型创业公司,其创始人王小川在极客公园IF2025创新大会上分享了他对医疗方向、AGI(人工通用智能)及技术进程的深入思考...

ChatGPT 按提示词数秒完成游戏开发,程序员们该慌了

Lance Ulanoff通过两次不同的测试,体验了ChatGPT在游戏开发方面的显著进步。在2023年初,他首次尝试使用ChatGPT 1.0来开发一款名为Tic-Tac-Go的游戏,但由于...

细节表现超Sora,网友:真正的国产之光!MiniMax视频模型再上新

MiniMax近期推出了图生视频模型I2V-01-Live,专门优化了二次元效果,能够将静态二次元图片转化为流畅自然的动态视频,标志着其正式进入动漫领域。这一新模型...

谷歌发布Gemini2.0,开启Agent新时代

谷歌近日发布了其最新的AI模型Gemini 2.0,标志着公司在AI领域的重大进步。Gemini 2.0是首个实现原生多模态输入输出的模型,性能全面升级,速度是前代1.5 Pro...

OpenAI版Her登场,GPT能实时视频通话了!德扑AI之父:比 o1“更受宠”的模式降临

OpenAI最近推出了高级语音模式的新功能,包括实时视频通话、屏幕共享和图像上传,这些功能将在未来几天内向所有Team用户以及大多数ChatGPT Plus和Pro用户推出...

谷歌发布Geimini2.0,开启Agent新时代

谷歌近期发布了其最新的AI模型Gemini2.0,标志着公司在AI领域的重大进步。Gemini2.0是首个实现原生多模态输入输出的模型,性能全面升级,速度是前代1.5 Pro的...
1 2 3 4 5 6 23