音频生成

音频,audio

Voice-first,闭关做一款语音产品的思考

在硅谷深入研究了两个多月后,作者发现语音产品是AI在C端领域的核心变革点。语音作为一种信息模态,正成为人们与产品交互的新接口,拓宽了物理边界。作者认为...

字节的第一款 AI 硬件,只是一次悄悄试水?

字节跳动通过其品牌豆包发布了AI智能体耳机Ola Friend,标志着公司在AI硬件领域的进一步扩展。这款开放式耳机重量轻,单耳仅6.6克,提供几乎无感的佩戴体验。...

手机 AI 2.0 时代,OriginOS 5 找到了哪些「成功密码」?

智能手机系统正迈入AI浪潮的2.0时代,厂商们在推出AI功能手机的同时,面临如何将AI大模型能力融入手机的挑战。vivo在2024开发者大会上推出的OriginOS 5系统,...

OpenAI 发布实时 API,AI 实时语音时代如何抢占风口?

今年的RTE大会上,实时互动与AI的结合将展现巨大潜力。OpenAI发布的实时API公开测试版,基于GPT-4o语音到语音的AI应用和智能体,标志着实时语音交互能力的新...

谷歌这款AI应用凭什么在一年后爆红?大神卡帕西:或是下一个ChatGPT

NotebookLM是一款由谷歌实验室开发的AI助手,最初名为Tailwind,后更名为NotebookLM,以更好地反映其帮助用户管理大量信息的功能。该产品能够处理Google Docs...

国外游戏作家:吓死了,谷歌NotebookLM的假AI播客正在评论我的书!

谷歌NotebookLM的文字生播客功能引起了广泛关注,其能够将文字内容迅速转换成播客形式,为听众提供一种新颖的信息接收方式。游戏作家Kyle Orland发现自己的扫...

Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑

Meta公司最近公开展示了其名为Movie Gen的突破性生成式人工智能研究项目,该项目旨在为电影制作人和视频创作者提供提高创造力的工具。Movie Gen的功能包括文...

超越Sora!全球首个带背景音乐,文生1080超高清视频模型

Meta公司推出了一款名为Movie Gen的大模型,标志着其正式进入文本生成视频(AIGC)领域。该模型拥有300亿参数,能够以每秒16帧的速度生成16秒长的1080P超高清...

Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了

Meta公司发布了名为“Movie Gen”的视频模型,该模型在技术上超越了OpenAI Sora,尽管Sora的技术负责人转投Google,且Sora因质量问题尚未发布。Meta的模型不仅...

Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功

Meta公司最近推出了一款名为Movie Gen的先进媒体基础模型,该模型包括两个部分:Movie Gen Video和Movie Gen Audio。Movie Gen Video是一个具有30B参数的Tran...
1 2 3 26