音频生成

音频,audio

支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢

国内最大的MCP中文社区正式上线,标志着AI开发门槛的进一步降低。魔搭ModelScope推出的「MCP广场」汇集了近1500款MCP服务,覆盖搜索、地图、支付、开发者工具...

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

阿里通义实验室推出的全新数字人视频生成大模型 OmniTalker,通过上传一段参考视频,能够学习并模仿视频中人物的表情、声音和说话风格。相比传统数字人生产流...

对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

谷歌在Google Cloud Next 25大会上发布了首个开源的Agent开发套件(ADK),这是继OpenAI之后,第二家大厂推出的标准化智能体SDK。ADK旨在帮助开发人员简化复...

为什么李飞飞团队经常cue通义千问?

近年来,人工智能领域的发展呈现出“更大、更多、更强”的趋势,特别是在大模型技术方面,中美两国的差距正在迅速缩小。根据斯坦福大学以人为本人工智能研究所...

a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

近年来,人工智能技术在生成逼真图片、视频和声音方面取得了显著进展,逐渐通过了视觉和听觉的图灵测试。然而,2025年最令人期待的突破之一将是AI数字人(AI ...

原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

商汤推出的「日日新 SenseNova V6」大模型在多模态推理与交互能力上展现了行业领先水平。该模型通过多模态长思维链训练、全局记忆、强化学习等技术突破,显著...

AI看柯南2分钟揪真凶,商汤600B多模态MoE推理封神!交互记忆全线升级

商汤科技最新发布的第六代大模型SenseNova V6,标志着多模态大模型技术的重大突破。该模型不仅在文本、图像和视频的原生融合上实现了全面升级,还展现了强大...

终究是 Google 和 Anthropic,扛下了连接一切 Agent 的所有

Google Cloud Next '25大会上,Google展示了其在AI领域的雄心壮志,尤其是在面对亚马逊AWS和微软Azure的激烈竞争时,Google Cloud决心不再仅仅追随,而是通过...

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

谷歌在Google Cloud Next 25大会上发布了首个标准智能体交互协议——Agent2Agent Protocol(简称A2A),并宣布开源。A2A旨在打破系统孤岛,提升智能体的跨平台...

阿里开源R1-Omni,多模态情感识别

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...
1 2 3 4 5 41