音频生成

音频,audio

深度!超详细文本提示词技巧,Gen-3发布保姆级教程

生成式AI平台Runway于7月9日在其官网发布了针对其最新文生视频模型Gen-3 Alpha的文本提示教程。该教程旨在帮助用户更精准地生成视频,解决用户在使用Gen-3等...

WAIC上,高通这一波生成式AI创新,让我们看到了未来

生成式人工智能(AI)技术的快速发展正在推动产业格局的快速变革。微软公司推出的AI PC,搭载新型芯片,具备超过40万亿次操作每秒的AI算力和全天电池续航能力...

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

法国非营利性AI研究机构Kyutai开发了一个名为Moshi的实时语音多模态模型,该模型具备听、说、看的能力,能够理解带有法国口音的英语。Moshi可以流畅地进行日...

成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!

Kyutai,一个由8人组成的非营利性AI研究实验室,在短短6个月内开发出了一种名为'Moshi'的实时原生多模态基础AI模型。Moshi能够表达70多种情绪,以不同风格说...

钛媒体AGI对话MiniMax创始人闫俊杰:至少三年后才会出现“杀手级”AI应用|直击WAIC 2024

他指出,尽管国内许多公司正在追赶ChatGPT,但目前模型的错误率在60%-70%,远高于GPT-4的30%-40%。因此,降低大模型的错误率是核心问题,而提高训练效率、研...

中国生成式AI专利38,000个,是美国6倍、超过全球总和!

联合国于2024年7月4日发布的深度调查报告揭示了中国在生成式人工智能(AIGC)领域的显著领先。2014至2023年间,中国申请的AIGC专利数量高达38,210项,是美国...

8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

法国AI实验室kyutai近日发布了一款名为Moshi的实时原生多模态AI模型,该模型在演示中展示了接近GPT-4o水平的性能,引起了广泛关注和AI界大佬的转发。Moshi的...

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

阿里巴巴通义实验室开发的EMO技术,通过一张图片和一段音频,能够生成与音频同步的生动视频。这项技术在央视《2024中国·AI盛典》中成功'复活'了北宋文学家苏...

互联网巨头,如何合法地「偷」你的数据训练 AI?

互联网大厂们已经开始合法地使用用户数据进行AI训练。随着AI竞赛的加剧,科技公司需要大量数据来训练模型,当普通数据挖掘殆尽时,用户个人内容成为了新的数...

华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频

华为和腾讯的研究人员联合开发了一种创新的视频模型AniPortrait,该模型能够通过音频和人物图片自动生成与音频同步的视频。AniPortrait的核心框架分为两大块...
1 10 11 12 13 14 31