音频生成
音频,audio
Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4
新智元报道:谷歌的Gemini 1.5模型在AI圈大佬们的极限测试中展现出了强大的实力。这些测试包括分析视频内容、处理长视频和音频、翻译稀有语言、理解长论文和...
OpenAI的Sora注定死路一条!Yann LeCun火力全开怒喷:这种实现方式“完全没有现实意义”
OpenAI发布Sora视频生成模型,引发全球关注OpenAI近日发布了一个名为Sora的视频生成模型,该模型能够生成长达60秒的高清视频,与以往只能生成几秒钟视频的模...
给 Sora 视频配音,ElevenLabs 推出 AI 音效生成功能,离 AI 生成电影又近了一步!
AI语音克隆公司ElevenLabs即将推出AI Sound Effects功能,该功能可以根据用户输入的提示自动生成声音,为视频添加逼真的背景声音。ElevenLabs的这项新功能在...
谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录
谷歌DeepMind近日发布了新一代多模态大模型——Gemini 1.5系列。Gemini 1.5 Pro是谷歌最强的MoE大模型,最高可支持10,000K token超长上下文。Gemini 1.5 Pro在...
文生音频新贵融资5亿,半年估值涨10倍,2年跑出一个AI独角兽!
步骤2:摘要总结新智元报道了AI初创公司ElevenLabs宣布获得8000万美元的B轮融资,估值超过10亿美元,成为独角兽之一。该公司由前Google机器学习工程师和前Pal...
【AI视频工具】谷歌的VideoPoet,基于大型语言模型(LLM),零样本生成视频,值得期待
文章主要介绍了谷歌的AI视频生成模型VideoPoet的最新研究成果。VideoPoet是一个大型语言模型(LLM),用于零样本视频生成,能够执行多种视频生成任务,包括文...
我尝试了谷歌Bard的新AI图像生成器,结果如何呢?
谷歌的对话式AI工具Bard即将迎来一周年纪念,并进行了新的升级。Bard最初因回答不够贴近人类而落后,后来引入了Gemini AI模型,使其学习范围从文本扩展到视频...
h2oGPT:你的GPT 私人智能文档助手与聊天伙伴, 100% 私密。
h2oGPT 是一个基于Apache V2协议的开源项目,旨在提供一个100%私密的文档和图像问答、摘要以及与本地GPT模型的聊天体验。以下是h2oGPT的核心功能:1. 私人文...
Amphion:最全能的开源AI音频项目,在音频商业化方面有极大的帮助
Amphion是一个面向音频、音乐和语音生成的工具包,旨在支持可复制研究,并帮助初级研究人员和工程师进入音频、音乐和语音生成领域。它提供了多种功能,包括TT...
谷歌掀桌子了,重大AI 更新ImageFX、MusicFX和TextFX 三箭齐发
在2月初,谷歌发布了全新的AI生成工具,包括ImageFX、MusicFX和TextFX。其中,ImageFX基于DeepMind的文生成图技术Image2,支持高分辨率图片和创意性强,最大...