音频生成
音频,audio
支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢
国内最大的MCP中文社区正式上线,标志着AI开发门槛的进一步降低。魔搭ModelScope推出的「MCP广场」汇集了近1500款MCP服务,覆盖搜索、地图、支付、开发者工具...
免费用!阿里通义大模型上新,超逼真音视频生成SOTA!
阿里通义实验室推出的全新数字人视频生成大模型 OmniTalker,通过上传一段参考视频,能够学习并模仿视频中人物的表情、声音和说话风格。相比传统数字人生产流...
对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星
谷歌在Google Cloud Next 25大会上发布了首个开源的Agent开发套件(ADK),这是继OpenAI之后,第二家大厂推出的标准化智能体SDK。ADK旨在帮助开发人员简化复...
为什么李飞飞团队经常cue通义千问?
近年来,人工智能领域的发展呈现出“更大、更多、更强”的趋势,特别是在大模型技术方面,中美两国的差距正在迅速缩小。根据斯坦福大学以人为本人工智能研究所...
a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道
近年来,人工智能技术在生成逼真图片、视频和声音方面取得了显著进展,逐渐通过了视觉和听觉的图灵测试。然而,2025年最令人期待的突破之一将是AI数字人(AI ...
原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了
商汤推出的「日日新 SenseNova V6」大模型在多模态推理与交互能力上展现了行业领先水平。该模型通过多模态长思维链训练、全局记忆、强化学习等技术突破,显著...
AI看柯南2分钟揪真凶,商汤600B多模态MoE推理封神!交互记忆全线升级
商汤科技最新发布的第六代大模型SenseNova V6,标志着多模态大模型技术的重大突破。该模型不仅在文本、图像和视频的原生融合上实现了全面升级,还展现了强大...
终究是 Google 和 Anthropic,扛下了连接一切 Agent 的所有
Google Cloud Next '25大会上,Google展示了其在AI领域的雄心壮志,尤其是在面对亚马逊AWS和微软Azure的激烈竞争时,Google Cloud决心不再仅仅追随,而是通过...
AI Agent大变天!谷歌开源A2A,一夜改变智能体交互
谷歌在Google Cloud Next 25大会上发布了首个标准智能体交互协议——Agent2Agent Protocol(简称A2A),并宣布开源。A2A旨在打破系统孤岛,提升智能体的跨平台...
阿里开源R1-Omni,多模态情感识别
阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...