音频生成

音频,audio

给 Sora 视频配音,ElevenLabs 推出 AI 音效生成功能,离 AI 生成电影又近了一步!

AI语音克隆公司ElevenLabs即将推出AI Sound Effects功能,该功能可以根据用户输入的提示自动生成声音,为视频添加逼真的背景声音。ElevenLabs的这项新功能在...

谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

谷歌DeepMind近日发布了新一代多模态大模型——Gemini 1.5系列。Gemini 1.5 Pro是谷歌最强的MoE大模型,最高可支持10,000K token超长上下文。Gemini 1.5 Pro在...

文生音频新贵融资5亿,半年估值涨10倍,2年跑出一个AI独角兽!

步骤2:摘要总结新智元报道了AI初创公司ElevenLabs宣布获得8000万美元的B轮融资,估值超过10亿美元,成为独角兽之一。该公司由前Google机器学习工程师和前Pal...

【AI视频工具】谷歌的VideoPoet,基于大型语言模型(LLM),零样本生成视频,值得期待

文章主要介绍了谷歌的AI视频生成模型VideoPoet的最新研究成果。VideoPoet是一个大型语言模型(LLM),用于零样本视频生成,能够执行多种视频生成任务,包括文...

我尝试了谷歌Bard的新AI图像生成器,结果如何呢?

谷歌的对话式AI工具Bard即将迎来一周年纪念,并进行了新的升级。Bard最初因回答不够贴近人类而落后,后来引入了Gemini AI模型,使其学习范围从文本扩展到视频...

h2oGPT:你的GPT 私人智能文档助手与聊天伙伴, 100% 私密。

h2oGPT 是一个基于Apache V2协议的开源项目,旨在提供一个100%私密的文档和图像问答、摘要以及与本地GPT模型的聊天体验。以下是h2oGPT的核心功能:1. 私人文...

Amphion:最全能的开源AI音频项目,在音频商业化方面有极大的帮助

Amphion是一个面向音频、音乐和语音生成的工具包,旨在支持可复制研究,并帮助初级研究人员和工程师进入音频、音乐和语音生成领域。它提供了多种功能,包括TT...

谷歌掀桌子了,重大AI 更新ImageFX、MusicFX和TextFX 三箭齐发

在2月初,谷歌发布了全新的AI生成工具,包括ImageFX、MusicFX和TextFX。其中,ImageFX基于DeepMind的文生成图技术Image2,支持高分辨率图片和创意性强,最大...

大语言模型 vs 大模型

本文主要介绍了大模型的概念、分类以及与大语言模型的关系。大模型是基于神经网络的一种模型,由多个神经元组成,通过权重连接形成层次结构。神经网络通过学...

OpenAI 危险了?Gemini 和 GPT4 比较,谁强,只需两张图秒懂;Gemini 天生多模态,很可能是不一样的技术路线

Gemini 和 GPT-4 是两种人工智能模型,Gemini 天生多模态,而 GPT-4 是靠多功能的拼装。 Gemini 在多个测试中得分均高于 GPT-4,包括一般性测试、复杂任务集...
1 20 21 22 23