音频生成

音频,audio

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

法国非营利性AI研究机构Kyutai开发了一个名为Moshi的实时语音多模态模型,该模型具备听、说、看的能力,能够理解带有法国口音的英语。Moshi可以流畅地进行日...

成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!

Kyutai,一个由8人组成的非营利性AI研究实验室,在短短6个月内开发出了一种名为'Moshi'的实时原生多模态基础AI模型。Moshi能够表达70多种情绪,以不同风格说...

钛媒体AGI对话MiniMax创始人闫俊杰:至少三年后才会出现“杀手级”AI应用|直击WAIC 2024

他指出,尽管国内许多公司正在追赶ChatGPT,但目前模型的错误率在60%-70%,远高于GPT-4的30%-40%。因此,降低大模型的错误率是核心问题,而提高训练效率、研...

中国生成式AI专利38,000个,是美国6倍、超过全球总和!

联合国于2024年7月4日发布的深度调查报告揭示了中国在生成式人工智能(AIGC)领域的显著领先。2014至2023年间,中国申请的AIGC专利数量高达38,210项,是美国...

8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

法国AI实验室kyutai近日发布了一款名为Moshi的实时原生多模态AI模型,该模型在演示中展示了接近GPT-4o水平的性能,引起了广泛关注和AI界大佬的转发。Moshi的...

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

阿里巴巴通义实验室开发的EMO技术,通过一张图片和一段音频,能够生成与音频同步的生动视频。这项技术在央视《2024中国·AI盛典》中成功'复活'了北宋文学家苏...

互联网巨头,如何合法地「偷」你的数据训练 AI?

互联网大厂们已经开始合法地使用用户数据进行AI训练。随着AI竞赛的加剧,科技公司需要大量数据来训练模型,当普通数据挖掘殆尽时,用户个人内容成为了新的数...

华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频

华为和腾讯的研究人员联合开发了一种创新的视频模型AniPortrait,该模型能够通过音频和人物图片自动生成与音频同步的视频。AniPortrait的核心框架分为两大块...

价格战、大厂裁员、模型“翻车”……Q2 的AI 圈子可一点都不无聊

2023年第二季度,人工智能领域经历了一系列重要事件和发展,包括新模型的发布、公司裁员、成功上市以及产品争议等。以下是本季度AI领域的主要亮点:1. Meta发...

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视科技近期推出了一款名为MegActor的开源AI人像视频生成框架,该框架允许用户通过输入一张静态肖像图片和一段视频,生成表情丰富、动作一致的AI人像视频。M...
1 3 4 5 6 7 23