标签:多模态

Gemini 3正式发布成最强模型!OpenAI更新GPT-5.1,马斯克发布Grok 4.1,大模型争宠让世界沸腾

大语言模型领域近期迎来密集更新,OpenAI、xAI和谷歌相继推出突破性产品。OpenAI的GPT-5.1通过高情商交互和精准指令遵从引发关注,而xAI的Grok 4.1在LMArena...

一个能思考、会记忆的AI导演诞生了!新加坡管理大学,香港中文大学等实现故事化视频生成

视频生成领域长期面临工具碎片化的困境,专业模型虽在单一任务上表现优异,但缺乏整合能力。为解决这一问题,新加坡管理大学、香港中文大学和斯坦福大学联合...

实测完“灵光”,我意识到人类对 AI 助手的开发不足1%

蚂蚁集团推出的AI应用“灵光”近期引发广泛关注,定位为零门槛全模态助手,其核心功能展现了AI生成能力的突破性进展。通过自然语言指令30秒生成可互动小应用,...

Gemini 3.0还在预热,中国AI抢先!30秒造APP全网首测

AI技术正经历从单一模态生成向「生成涌现」的深刻范式转变。谷歌Gemini 3.0未正式发布便已通过实测展示其革命性能力,包括一键生成操作系统界面、可交互网页...

对话Memories.ai:“人的记忆本质上是视觉,AI也该如此”

Memories.ai公司由前Meta研究员Shawn Shen和Ben Zhou创立,专注于开发大型视觉记忆模型(LVMM)。其核心技术创新在于将原始视频转换为设备上的结构化内存,通...

这可能是今年最能打的 ToC Agent 产品。

作者通过亲身体验,尖锐批评了当前AIGC产品过度强调生成能力而忽视编辑体验的行业现象。以百度GenFlow为例,指出优秀产品应聚焦用户实际需求,将AI能力与专业...

与DeepSeek-OCR不谋而合,NeurIPS论文提出让LLM像人一样读长文本

在 NeurIPS 2025 论文中,来自南京理工大学、中南大学、南京林业大学的研究团队提出了一个极具突破性的框架 ——VIST(Vision-centric Token Compression in LL...

OpenAI引爆新赛道:AI不再卖技术,而是卖「活人感」!

一段小女孩与AI玩具告别的视频引发了广泛关注,揭示了对话式AI如何深度融入人类情感世界。这一场景不仅触动了公众情感,更凸显了实时交互技术的革命性潜力。...

美团开源全模态,比肩顶级闭源模型,开源新SOTA

美团LongCat团队发布了5600亿参数的开源全模态模型LongCat-Flash-Omni,该模型能够实现毫秒级的实时音频-视觉交互。其核心是一个端到端的全模态架构,能够接...

刚刚,AI视频的天花板被掀翻!测完SkyReels后飘了:我亦有成为专业导演的潜质

昆仑万维近日推出全新升级的AI视频创作平台SkyReels,标志着多模态内容生成技术进入新阶段。该平台通过'模型+平台'双轨模式,集成图像、音频、视频、数字人等...
1 2 3 4 39