音频生成
音频,audio
谷歌推出基于Transformer的创新技术——无限注意力
随着生成式AI产品如ChatGPT和Sora等的流行,Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型(LLM)的基础。谷歌提出了一种名为Infini...
月之暗面被曝进军美国,产品、人才筹备中!阿里腾讯捧出的30亿美元独角兽终于要出海了
月之暗面正在为进军美国市场做准备,计划通过新一轮融资将估值提升至30亿美元,新的投资者包括腾讯。今年2月,该公司已获得阿里领投的10亿美元融资,当时估值...
谷歌推出V2A,可为视频大模型自动匹配语音
专注于AIGC领域的专业社区,关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。谷歌Deepm...
ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据
Epochai发布了一份关于大语言模型(LLM)训练数据消耗的研究报告,指出目前全球公开的高质量文本训练数据集约为300万亿tokens。然而,随着像ChatGPT这样的模...
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
谷歌DeepMind最近发布了一项视频生成语音(V2A)技术的进展,该技术可以为视频内容自动生成匹配的音效和配音,结束了AI视频只有画面没有声音的历史。这项技术...
霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+
Hallo是一种基于分层音频驱动视觉合成模块的开源项目,由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。该项目的主要贡献是提出了一种分...
重磅!OpenAI与苹果合作,将ChatGPT集成在iOS 18中
在最新的技术合作中,OpenAI与苹果公司携手,将ChatGPT深度集成至苹果产品矩阵中,涵盖iOS、iPadOS和macOS。苹果采用的ChatGPT技术由GPT-4o提供支持,这是Ope...
腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!
腾讯音乐娱乐的Lyra Lab团队开发了一个名为Muse的开源系列项目,致力于虚拟人类的生成。其中的最后一个模块MusePose,已于5月27日正式发布,标志着Muse系列数...
OpenAI开源GPT-4 SAE,提供1600万个解释模式
在人工智能领域,大模型如GPT-4的功能日益强大,能够生成文本、图片、视频和音频等多种内容,但其生成过程往往难以精确控制,可能导致歧视性、错误或幻觉等不...
钛媒体AGI独家|“中国版Sora”视频大模型Vidu重大更新:时长延至32秒,首次支持音视频合成
中国自研视频大模型Vidu取得显著进展,完成了三个重大技术迭代,标志着国产视频生成技术的一大步跨越。首先,Vidu已能够一键生成长达32秒的视频,相较于之前...