音频生成

音频,audio

接入DeepSeek后的自由画布,做PPT还真的有点强。

百度文库最新上线的自由画布功能通过创新的多模态交互设计,显著提升了非演讲类PPT的制作效率。与传统AI工具的单线程问答模式不同,该工具采用白板式界面,支...

当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025

高瓴人工智能学院宋睿华团队与跨学科研究者合作开发的EyEar技术,成功实现了对人类视听同步场景下注视轨迹的预测。该模型通过结合物理启发的动力系统和多模态...

16G显存4499元起香爆!AMD RX 9070系列显卡震撼发布,游戏、AI性能狂飙

AMD在最新发布会上正式推出基于RDNA 4图形架构的Radeon RX 9000系列显卡,包含RX 9070和RX 9070 XT两款型号。这两款产品均搭载16GB GDDR6显存,配备重新设计...

Karpathy更新AI科普视频,网友:原本周末打算结个婚,改看视频了

Andrej Karpathy发布了一部时长2小时18分钟的教学视频,系统性地解析大型语言模型(LLM)的实践应用方法。该视频以普通用户为对象,聚焦如何通过LLM提升工作...

微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B

微软于2024年底推出的Phi-4模型家族新增Phi-4-multimodal和Phi-4-mini两个成员,标志着小型语言模型在性能与效率上的重大突破。140亿参数的Phi-4使用40%合成...

AI说书媲美真人!豆包语音大模型升级长上下文理解

豆包语音模型团队通过技术革新实现了AI合成语音在小说演播场景的突破性进展。基于改进的Seed-TTS框架,该系统无需人工标注标签即可端到端生成高自然度语音,...

阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业

阶跃星辰在首届Step UP生态开放日上展示了其在智能终端Agent领域的战略布局与技术突破,重点围绕汽车、手机、IoT和具身智能四大场景展开深度合作与创新。公司...

全网首发|一手内测字节OmniHuman-1,这就是当今最强的AI数字人。

字节跳动推出的OmniHuman-1模型近期开启内测,其通过单张人物图像与音频输入生成动态视频的能力引发广泛关注。该技术不仅实现高精度唇形同步,还突破性地支持...

“大模型六虎”阶跃星辰3月将开源图生视频模型|钛媒体AGI

在首届Step UP生态开放日上,阶跃星辰公布了多项技术进展与战略规划。创始人姜大昕强调,公司正通过多模态与推理能力双轮驱动,推进AGI技术路线。今年3月将开...

突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题

Grok-3的开放使用引发科技界广泛关注,其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型,Grok-3免费开放DeepSearch和Think两大模式,但在...
1 2 3 36