音频生成

音频,audio

揭秘大模型技术在快手搜索的应用

快手搜索部门技术专家许坤在QCon 2024北京的分享中,深入探讨了大模型技术在快手搜索领域的应用,特别是多模态理解和生成方面的最新科研进展。许坤介绍了快手...

谷歌推出基于Transformer的创新技术——无限注意力

随着生成式AI产品如ChatGPT和Sora等的流行,Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型(LLM)的基础。谷歌提出了一种名为Infini...

月之暗面被曝进军美国,产品、人才筹备中!阿里腾讯捧出的30亿美元独角兽终于要出海了

月之暗面正在为进军美国市场做准备,计划通过新一轮融资将估值提升至30亿美元,新的投资者包括腾讯。今年2月,该公司已获得阿里领投的10亿美元融资,当时估值...

谷歌推出V2A,可为视频大模型自动匹配语音

专注于AIGC领域的专业社区,关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。谷歌Deepm...

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

Epochai发布了一份关于大语言模型(LLM)训练数据消耗的研究报告,指出目前全球公开的高质量文本训练数据集约为300万亿tokens。然而,随着像ChatGPT这样的模...

杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!

谷歌DeepMind最近发布了一项视频生成语音(V2A)技术的进展,该技术可以为视频内容自动生成匹配的音效和配音,结束了AI视频只有画面没有声音的历史。这项技术...

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

Hallo是一种基于分层音频驱动视觉合成模块的开源项目,由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。该项目的主要贡献是提出了一种分...

重磅!OpenAI与苹果合作,将ChatGPT集成在iOS 18中

在最新的技术合作中,OpenAI与苹果公司携手,将ChatGPT深度集成至苹果产品矩阵中,涵盖iOS、iPadOS和macOS。苹果采用的ChatGPT技术由GPT-4o提供支持,这是Ope...

腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!

腾讯音乐娱乐的Lyra Lab团队开发了一个名为Muse的开源系列项目,致力于虚拟人类的生成。其中的最后一个模块MusePose,已于5月27日正式发布,标志着Muse系列数...

OpenAI开源GPT-4 SAE,提供1600万个解释模式

在人工智能领域,大模型如GPT-4的功能日益强大,能够生成文本、图片、视频和音频等多种内容,但其生成过程往往难以精确控制,可能导致歧视性、错误或幻觉等不...
1 2 3 18