标签:多模态
谷歌发布Gemini Live:对标GPT-4o,让每一个人都有贾维斯
在2024年的“Made by Google”大会上,谷歌公司发布了一款名为Gemini Live的智能语音助手。这款助手具备多模态能力,能够理解自然语言提问,识别图像、视频和语...
实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态
面壁智能于8月6日推出了MiniCPM-V 2.6模型,这是一款具有8B参数的端侧多模态模型,它首次集成了实时视频理解、多图联合理解等能力。MiniCPM-V 2.6以其小尺寸...
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
面壁公司最新发布的MiniCPM-V 2.6在端侧视频理解方面取得了重大突破,成功实现了与GPT-4V相媲美的性能。MiniCPM-V 2.6首次在端侧实现了单图、多图、视频理解...
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
面壁小钢炮MiniCPM-V 2.6模型以其8亿参数的规模,在端侧多模态领域取得了显著的突破。该模型在单图、多图和视频理解三个方面均达到了20亿参数以下的最佳性能...
“清华系Sora”全球上线,生成一段视频需30秒,每月支付58元|钛媒体AGI
7月30日,北京生数科技有限公司联合清华大学发布了国内首个自研的AI生成视频大模型Vidu,并向全球用户开放使用。Vidu具备文生视频和图生视频两大核心功能,提...
视频生成赛道再添「猛将」,智谱清影正式上线
智谱公司在视频生成领域取得了显著进展,成为国内估值超过200亿的大模型公司中首家发布视频生成成果的团队。该公司推出的AI视频生成功能“清影”(Ying)正式上...
GPT-4o mini,你好!GPT-3.5 彻底再见!|AI 鲜测
OpenAI 最新推出的 GPT-4o mini 模型以其卓越的性价比和强大的多模态能力,重新定义了 AI 成本效益的标准。在 MMLU 中以 82% 的得分领先市场,成本仅为每百万...
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
OpenAI于7月18日推出了GPT-4o mini,标志着其进入多模态小模型领域。这一举措与欧洲和中国团队在小模型领域的研究相呼应,这些团队已在此领域研究了大半年。G...
OpenAI推出GPT-4o mini,更小更强更便宜
OpenAI近期推出了GPT-4o的小型版本——GPT-4o mini,这是市场上最具成本效益的小型模型。GPT-4o是首个能够本地处理多模态输入和输出的AI模型,但发布后不久就被...
哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈
具身智能技术,将智能系统与物理实体结合,使机器人能够感知环境、进行决策并执行动作。其核心在于“具身”,即通过物理形态与世界交互。实现这一技术关键在于...