标签:多模态AI

一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o

在KDD 2024大会上,中国的大模型技术取得了显著进展。智谱AI的顾晓韬博士介绍了支持中英双语的对话机器人ChatGLM,以及智谱基础模型的重大升级——GLM-4-Plus。...

语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

Meta公司最新发布的Transfusion模型,成功实现了语言模型和图像生成的统一,为多模态AI模型的发展迈出了重要一步。Transfusion模型融合了Transformer和Diffus...

​一夜之间,谷歌版GPT-4o和AI手机全上市了

谷歌在Made by Google活动上发布了Gemini Live,这是一款与OpenAI的高级语音模式GPT-4o竞争的产品。Gemini Live提供了一种移动对话体验,允许用户与Gemini进...

重磅!OpenAI与苹果合作,将ChatGPT集成在iOS 18中

在最新的技术合作中,OpenAI与苹果公司携手,将ChatGPT深度集成至苹果产品矩阵中,涵盖iOS、iPadOS和macOS。苹果采用的ChatGPT技术由GPT-4o提供支持,这是Ope...

GPT-4o 引爆小红书打卡潮,推动 Vision Pro想象,刷新微软、Adobe 产品线

GPT-4o 的多模态视觉能力引发了社交媒体上的热议,尤其是在小红书上,用户们热衷于测试其识别街景的能力。与其它多模态 AI 模型相比,GPT-4o 显示出了更高的...

Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

在多模态人工智能领域,GPT-4o 的问世开创了一个新纪元,被称为首个“原生”多模态模型,因其能无缝融合文本、视觉和音频。区别于传统多模态模型采用的特定模态...

前脚OpenAI,后脚谷歌,“个性化教育、因材施教”正从理想走向现实

在未来教育的发展中,多模态AI产品的出现预示着个性化教学和因材施教的理念正逐步变为现实。OpenAI的GPT-4o和谷歌推出的LearnLM等多模态AI工具,在实时交互、...

一线创业者圆桌讨论:多模态 AI 的创业机会在于「有用」

产品人的AI观点:1. 用户在使用AI图像/视频生成产品时,更关注可控性和成本。专业用户倾向于使用SD WebUI/ComfyUI工作流,而普通用户则更多使用MidJourney等...

Meta 眼镜支持多模态 Llama 3,实时翻译、物体识别,AI 眼镜的机会来了!

Meta官方宣布,其智能眼镜产品现已支持多模态版的Llama 3,这一功能在开源版本中尚未实现。这款眼镜具备音乐播放、语言翻译、发送语音信息等功能,能够在用户...
1 2