音频生成

音频,audio

秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

Kimi-Audio 是一个全新的通用音频基础模型,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在多个音频基准测试中实现了最先进的性能。结果显示,...

哥大退学网红AI作弊器,亲测翻车!搅黄会议划水90s,创始人承认仅是雏形

外媒记者对哥大退学网红Roy Lee的AI作弊工具「Cheat Everything」进行了实测,结果发现该工具在实际使用中存在诸多问题。记者在与编辑对话和团队会议中使用Cl...

用AI做“跳看”,爱奇艺要让用户掌握主动权

爱奇艺在最新的App更新中推出了“跳看”功能,用户只需在屏幕两侧上下划动即可直接跳转到精彩剧情点。这一功能的实现依赖于AI技术,能够识别视频中的关键情节,...

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

OpenAI在技术直播中发布了其最新的多模态模型o4-mini和满血版o3,这两款模型能够同时处理文本、图像和音频,并具备调用外部工具的能力。这一创新使得模型能够...

谷歌AI成功破解海豚语,海洋版ChatGPT来了!掀人类跨物种交流革命

谷歌最新推出的DolphinGemma大模型,基于30年的海豚研究数据,试图破解海豚的语言密码。这一仅有400M参数的轻量级模型能够在普通Pixel手机上运行,不仅能够识...

“字节暗示我太穷”:Seed团队1000张H100训练7B模型,发布全球首个25秒AI视频,验证视觉生成Scaling Law?

字节跳动近日发布了全球首个由AI生成的25秒视频,这一成果由Seaweed-7B模型完成。该模型参数量仅为70亿,但在核心任务上的表现超越了参数量为其两倍的主流模...

支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢

国内最大的MCP中文社区正式上线,标志着AI开发门槛的进一步降低。魔搭ModelScope推出的「MCP广场」汇集了近1500款MCP服务,覆盖搜索、地图、支付、开发者工具...

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

阿里通义实验室推出的全新数字人视频生成大模型 OmniTalker,通过上传一段参考视频,能够学习并模仿视频中人物的表情、声音和说话风格。相比传统数字人生产流...

对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

谷歌在Google Cloud Next 25大会上发布了首个开源的Agent开发套件(ADK),这是继OpenAI之后,第二家大厂推出的标准化智能体SDK。ADK旨在帮助开发人员简化复...

为什么李飞飞团队经常cue通义千问?

近年来,人工智能领域的发展呈现出“更大、更多、更强”的趋势,特别是在大模型技术方面,中美两国的差距正在迅速缩小。根据斯坦福大学以人为本人工智能研究所...
1 2 3 40