多模态 | 第 2 页

AI成绩单背后，藏着一位华人“出题人”

随着前沿大语言模型能力的快速提升，传统的MMLU等基准评测逐渐面临“旧考卷失灵”的困境，前沿模型准确率逼近满分，难以有效区分模型间的真实能力差距。为解决...

AIGC动态

4周前

智谱创始人唐杰隔空对话马斯克：赶超Claude Fable 5不用等到2027年

近期，马斯克与智谱创始人唐杰围绕中美大模型差距问题展开了隔空对话。针对中国大模型何时达到国际领先水平的疑问，有技术专家认为目前智谱GLM-5.2与海外顶尖...

AIGC动态

4周前

CVPR前沿观察：AI下半场，阿里云破题Agent

在Agent时代，人工智能的核心挑战已从单纯的视觉感知转向对复杂世界的理解、生成及与真实业务的融合。决定智能体能否进入业务流程的关键，在于其处理复杂输入...

AI-Agent

1个月前

入围CVPR 2026最佳论文决选，ViT³用「测试时训练」突破Transformer复杂度瓶颈

阿里巴巴与清华大学合作的研究提出了ViT³模型，旨在解决视觉Transformer在处理高分辨率图像和复杂多模态输入时计算与显存成本急剧增加的问题。该研究将测试时...

AIGC动态

1个月前

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031

在跨模态检索方面，评测实验表明，多模态长记忆的瓶颈不在于模型的推理层，而在于检索层，只要提供准确的证据，模型准确率可大幅提升。面对长上下文带来的证...

AIGC动态

1个月前

字节开源王炸Bernini！轻松拿捏各类视频编辑任务

Bernini团队发布并开源了一款将多模态大模型与扩散模型深度融合的统一视频生成与编辑框架。该框架通过物理分工理念，让多模态大模型担任语义规划师，基于DiT...

AIGC动态

1个月前

谷歌Gemma 4添新，超强多模态智能塞进你的笔记本电脑

谷歌近期发布了Gemma 4家族的新成员Gemma 4 12B模型，该模型将先进的多模态智能推理、视觉与音频处理能力整合，并专为笔记本电脑等本地设备运行而优化。在性...

AIGC动态

1个月前

硅谷CEO深夜站台！MiniMax M3冲上开源第一，中文社区却吵翻了？

在多项极限测试中，M3展现出卓越的综合实力。在代码生成与多模态理解方面，M3能够流畅生成复杂动画代码，并在极低消耗下完成长逻辑代码编写。面对长达五十页...

AIGC动态

1个月前

拒绝蒸馏！微软发布自研MAI-Thinking-1追平Claude Opus 4.6：完全从零训练，不沾任何第三方模型输出

微软在Build大会上发布了一系列自研AI模型，标志着其从AI应用整合者向全栈AI基础设施与模型提供者的战略转型。公司高管强调致力于打造支持人类的“人本主义超...

AIGC动态

1个月前

MiniMax M3来了：编程超 GPT-5.5，即将开源

MiniMax近期发布了M3大语言模型，该模型在编程、百万上下文和原生多模态三个核心方向上均达到了国际前沿水平，并且即将开源。作为国内首个齐备图片与视频输入...

AIGC动态

1个月前

标签：多模态

AI成绩单背后，藏着一位华人“出题人”

智谱创始人唐杰隔空对话马斯克：赶超Claude Fable 5不用等到2027年

CVPR前沿观察：AI下半场，阿里云破题Agent

入围CVPR 2026最佳论文决选，ViT³用「测试时训练」突破Transformer复杂度瓶颈

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031

字节开源王炸Bernini！轻松拿捏各类视频编辑任务

谷歌Gemma 4添新，超强多模态智能塞进你的笔记本电脑

硅谷CEO深夜站台！MiniMax M3冲上开源第一，中文社区却吵翻了？

拒绝蒸馏！微软发布自研MAI-Thinking-1追平Claude Opus 4.6：完全从零训练，不沾任何第三方模型输出

MiniMax M3来了：编程超 GPT-5.5，即将开源

热门网址

标签：多模态

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址