标签:多模态
大模型的进化方向:Words to Worlds | 对话商汤林达华
李飞飞团队的空间智能模型Cambrian-S首次被国产开源AI模型SenseNova-SI超越。该模型由商汤科技开发,在多项空间智能基准测试中取得领先成绩。商汤科技首席科...
对话张进:当 AI 不再只靠「看见」去理解世界丨GAIR 2025
声波与毫米波等无线感知技术正在成为人工智能理解物理世界的新维度。随着AI系统从实验室走向真实场景,传统依赖视觉的感知方式在动态复杂环境中逐渐显现局限...
还在手搓PPT?试完这款AI,我连夜卸载了付费模板库
办公小浣熊3.0的发布标志着AI从内容生成向任务执行的范式跃迁。这一升级版工具通过多模态智能体创作引擎,实现了PPT从草稿到交付的全流程自动化,同时支持百...
港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务
香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型,旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...
Looki 国内开售:你愿让AI把触角伸到你的生活里么?
Looki是一款兼具实验性与实用性的AI硬件产品,其设计理念打破了传统智能设备的单向服务模式。30克的机身整合了摄像头、麦克风及触摸面板,通过独特的“间隔拍...
统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解
统一多模态多任务的视频生成模型UnityVideo通过整合多种视觉模态,显著提升了模型对物理世界的理解能力和生成质量。该模型由港科大、港中文、清华大学和快手...
智谱重磅三箭齐发:从看懂世界到操作手机,千亿模型上云、手机智能体入袋、语音输入重构
AutoGLM是首个具备真机操作能力的AI智能体,实现了让AI像人一样操作手机完成任务的愿景。经过32个月的探索,团队构建了Phone Use能力框架,模型学会了将自然...
我看 MiniMax 闫俊杰:「心舟」已过万重山
大模型技术的崛起为新一代中国技术创业者提供了打破传统桎梏的机遇,使他们能够将技术理想与商业价值更紧密地结合。MiniMax创始人闫俊杰与罗永浩的对话揭示了...
造梦次元:每天30万人在这里,不求AI陪伴,只做上帝愉悦自己
造梦次元APP通过AI技术为用户提供了扮演“上帝”的机会,让他们在虚拟世界中创造并消费内容,从而获得掌控感。该平台的核心特点是高度互动性,用户不仅可以消费...
谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线
谷歌DeepMind CEO Hassabis预测,2030年前将实现具备或超越人类能力的通用人工智能(AGI)。他认为,当前AI系统虽已取得显著进展,但仍需1-2个类似Transforme...




