标签:实时交互

Gemini 2.0发布了,可惜的是关注的人很少

谷歌近日宣布推出其人工智能大模型系列的最新作品——Gemini 2.0,其中Gemini 2.0 Flash实验版本率先亮相。这款模型能够生成文本、图像和语音,并处理多种格式...

WebRTC创建者加入了OpenAI,他如何思考语音AI的未来?

WebRTC的联合创始人Justin Uberti,同时也是Fixie.ai的联合创始人兼CTO,宣布加入OpenAI领导实时AI项目。Uberti在Google时期参与创建并领导了WebRTC项目,并...

工作坊报名|使用 TEN Framework 与 Azure,探索你的多模态交互新场景

GPT-4o Realtime API的发布标志着语音AI领域的新突破,带来了实时音频交互、自然语音生成、多语言能力和快速响应时间等创新特性。这些技术进步为全球企业在客...

在RTE2024,窥见实时AGI的未来

AI技术的进步正在改变人机交互的方式,特别是在实时交互(RTE)领域。OpenAI的GPT-4o模型通过Realtime API为开发者提供了低延迟、自然流畅的对话能力,使得智...

谷歌展示首个大模型实时游戏模拟引擎,重塑游戏开发流程

谷歌研究人员利用开源扩散模型Stable Diffusion 1.4开发了实时游戏模拟引擎GameNGen,该引擎能在单个TPU上以超过20帧每秒的速度交互式模拟经典射击游戏《DOOM...

成本降低98%!OpenAI开发者大会4大新功能,处理量爆增50倍!

在最近于美国旧金山举行的第二届开发者大会上,OpenAI推出了四项新的API功能,旨在简化模型调用、微调和蒸馏流程,实现高效开发。这些新功能包括实时API、视...

完蛋,我被数字同事包围了!小冰AI数字员工再升级,零样本定制,即时上岗

小冰公司最新推出了一项名为“零样本”数字人(Zero-shot Xiaoice Neural Rendering,Zero-XNR)的技术创新,该技术基于超千亿大模型基座,能够实现数字人的极...

商汤大模型的「5o」交互,普通人如何和 AI 过一天?

在2024年世界人工智能大会上,商汤科技推出了国内首个'流式交互'多模态大模型——'日日新5o',标志着AI 2.0时代超级时刻和应用的爆发。该模型具备实时视觉能力...

通用世界模型问世:不学习就能生成新领域视频,可实时控制

在人工智能领域,世界模型作为一种通过预测未来来理解数字和物理世界的方式,被视为实现通用人工智能(AGI)的关键路径之一。最新的研究进展中,Pandora模型...

视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

OpenAI于2024年5月14日举行了一场名为“春季功能更新”的发布会,推出了新的人工智能模型GPT-4o。这个模型虽然不是GPT-5,但其展示的功能已经令人印象深刻。Ope...
1 2