标签:多模态AI

实时音视频领域拓荒者的十年

实时对话式AI的机遇正在被业界广泛讨论和探索。RTE(实时互联网)大会自2015年引入中国以来,已发展成为全球规模最大的音视频行业峰会,吸引了众多行业专家和...

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

在CNCC 2024上,智谱展示了其最新的多模态AI技术成果,其中包括AutoGLM,一个能够模拟用户操作手机和浏览器的智能体,以及GLM-4-Voice情感语音模型,后者以其...

谷歌计划将 Gemini 并入 Deepmind,下个月开始生效

谷歌近期进行了重要的人事调整和组织架构变动,以加强其在人工智能领域的竞争力。尼克·福克斯(Nick Fox)接替普拉巴卡尔·拉加万(Prabhakar Raghavan)成为...

AI教父Hinton万字访谈: 人类可能只是AI演化过程中的一个过渡阶段

2023年5月,AI领域的先驱人物杰弗里·辛顿(Geoffrey Hinton)宣布离开谷歌,并在MIT的一场分享会上详细阐述了他对人工智能的担忧。辛顿的发言引起了广泛关注...

一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o

在KDD 2024大会上,中国的大模型技术取得了显著进展。智谱AI的顾晓韬博士介绍了支持中英双语的对话机器人ChatGLM,以及智谱基础模型的重大升级——GLM-4-Plus。...

语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

Meta公司最新发布的Transfusion模型,成功实现了语言模型和图像生成的统一,为多模态AI模型的发展迈出了重要一步。Transfusion模型融合了Transformer和Diffus...

​一夜之间,谷歌版GPT-4o和AI手机全上市了

谷歌在Made by Google活动上发布了Gemini Live,这是一款与OpenAI的高级语音模式GPT-4o竞争的产品。Gemini Live提供了一种移动对话体验,允许用户与Gemini进...

重磅!OpenAI与苹果合作,将ChatGPT集成在iOS 18中

在最新的技术合作中,OpenAI与苹果公司携手,将ChatGPT深度集成至苹果产品矩阵中,涵盖iOS、iPadOS和macOS。苹果采用的ChatGPT技术由GPT-4o提供支持,这是Ope...

GPT-4o 引爆小红书打卡潮,推动 Vision Pro想象,刷新微软、Adobe 产品线

GPT-4o 的多模态视觉能力引发了社交媒体上的热议,尤其是在小红书上,用户们热衷于测试其识别街景的能力。与其它多模态 AI 模型相比,GPT-4o 显示出了更高的...

Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

在多模态人工智能领域,GPT-4o 的问世开创了一个新纪元,被称为首个“原生”多模态模型,因其能无缝融合文本、视觉和音频。区别于传统多模态模型采用的特定模态...
1 2