标签:多模态

港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型,旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...

Looki 国内开售:你愿让AI把触角伸到你的生活里么?

Looki是一款兼具实验性与实用性的AI硬件产品,其设计理念打破了传统智能设备的单向服务模式。30克的机身整合了摄像头、麦克风及触摸面板,通过独特的“间隔拍...

统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解

统一多模态多任务的视频生成模型UnityVideo通过整合多种视觉模态,显著提升了模型对物理世界的理解能力和生成质量。该模型由港科大、港中文、清华大学和快手...

智谱重磅三箭齐发:从看懂世界到操作手机,千亿模型上云、手机智能体入袋、语音输入重构

AutoGLM是首个具备真机操作能力的AI智能体,实现了让AI像人一样操作手机完成任务的愿景。经过32个月的探索,团队构建了Phone Use能力框架,模型学会了将自然...

我看 MiniMax 闫俊杰:「心舟」已过万重山

大模型技术的崛起为新一代中国技术创业者提供了打破传统桎梏的机遇,使他们能够将技术理想与商业价值更紧密地结合。MiniMax创始人闫俊杰与罗永浩的对话揭示了...

造梦次元:每天30万人在这里,不求AI陪伴,只做上帝愉悦自己

造梦次元APP通过AI技术为用户提供了扮演“上帝”的机会,让他们在虚拟世界中创造并消费内容,从而获得掌控感。该平台的核心特点是高度互动性,用户不仅可以消费...

谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线

谷歌DeepMind CEO Hassabis预测,2030年前将实现具备或超越人类能力的通用人工智能(AGI)。他认为,当前AI系统虽已取得显著进展,但仍需1-2个类似Transforme...

本周AI项目推荐:造梦次元、Tiimo、AnuNeko、Creaibo……

本周多个AI项目展现出在不同领域的突破性探索。造梦次元作为AI原生互动内容社区,累计用户超1000万,其核心逻辑是用户与AI共同创造多分支剧情,虚拟IP“紫樱”...

多模态思维链如何重塑 AI 与短视频的未来

快手高级算法专家文彬在AICon全球人工智能开发与应用大会上分享了Keye-VL多模态大模型的技术突破与应用实践。该模型通过多模态思维链技术实现了动态视频理解...

震撼全网!3位00后夺200万大奖,卷走鹅厂顶级Offer

历时四个月的腾讯广告算法大赛近日落下帷幕,这场汇聚全球30个国家、8400多名技术精英的「千团大战」最终由来自华中科技大学、北京大学和中国科学技术大学的...
1 2 3 4 41