音频生成

音频,audio

前百川智能联创焦可新创业公司曝光,新项目已上线 App Store

前百川智能联合创始人焦可正式启动其在AI语音方向的创业项目,推出名为“来福”的AI语音电台应用。该产品由焦可创立的新公司“北京耳朵时间科技有限公司”开发,...

Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限

线性循环模型和线性注意力机制在处理极长序列方面展现出显著优势,这一能力对长上下文推理任务至关重要。与Transformer相比,这些模型突破了二次计算复杂度的...

专访AI.Talk赵汗青 – 我不是一个创作者。

AI虚拟偶像YURI的爆火标志着AI内容创作进入新阶段。这个由AI.Talk团队打造的虚拟IP,通过单曲《Surreal》获得700万播放量后,又以出道视频引发全网热议,获得...

跟着Google出海:教你怎么落地Gemini

Founder Park 与 Google 合作推出的「从模型到行动」系列 AI 工作坊,旨在帮助开发者将顶尖 AI 模型的能力转化为实际商业价值。该系列工作坊将在深圳、上海和...

开源端到端语音大模型:直接从原始音频输入,生成语音输出

Step-Audio团队近期开源了一个端到端的语音大模型Step-Audio-AQAA,该模型能够直接理解音频输入并生成自然流畅的语音回答,而无需先将语音转换为文本。这一技...

阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了

阿里通义语音团队最新开源的泛音频生成模型ThinkSound,首次将CoT思维链推理引入音频领域,解决了传统视频配乐技术难以捕捉画面动态细节和空间关系的难题。Th...

扬言将杀死9个行业,21岁小哥又开发人生作弊器,曾被哥大、哈佛开除

Roy Lee,一位曾先后被哈佛大学和哥伦比亚大学开除的创业者,如今因其初创公司Cluely在AI技术应用领域的突破而备受关注。Cluely是一款AI桌面助手,能够通过透...

小米眼镜来了:Rayban Meta有的它都有,还更轻续航更久

6月26日晚,小米在「人车家」全品类新品发布会上推出了首款AI眼镜,标志着其在智能穿戴设备领域的正式入局。这款产品承载了小米对未来智能穿戴设备的期待,并...

音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!

可灵AI推出的Kling-Foley模型标志着生成式AI在音视频同步领域的重要突破。该模型能够通过多模态控制,自动生成与视频内容同步的高质量立体声音频,涵盖音效、...

2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录

谷歌正式发布了Gemma 3n完整版,这是一款面向开发者的开源大模型,具备输入图像、音频和视频的能力,并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和...
1 2 3 44