音频生成

音频,audio

终究是 Google 和 Anthropic,扛下了连接一切 Agent 的所有

Google Cloud Next '25大会上,Google展示了其在AI领域的雄心壮志,尤其是在面对亚马逊AWS和微软Azure的激烈竞争时,Google Cloud决心不再仅仅追随,而是通过...

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

谷歌在Google Cloud Next 25大会上发布了首个标准智能体交互协议——Agent2Agent Protocol(简称A2A),并宣布开源。A2A旨在打破系统孤岛,提升智能体的跨平台...

阿里开源R1-Omni,多模态情感识别

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...

击败 Manus?前百度 AI 高管创业1年多,放弃500 万用户搜索产品,转推“最强 Agent ”,自述 9 个月研发历程

总部位于美国加州帕洛阿尔托的初创公司 MainFunc 近日发布了 Genspark Super Agent,这是一款能够自主思考、计划、行动并使用工具来处理复杂任务的 AI 代理系...

语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%

百度最近为文小言接入了基于Cross-Attention的端到端语音语言大模型,实现了更自然、有情感的实时语音对话功能。这个全新的技术方案在用户体验上带来了显著提...

图灵奖得主预言中国成AI工业翘楚!海淀硬核AI先锋盛会,涌现更多未来成果

2025年中关村论坛人工智能主题日在北京海淀区隆重举行,标志着中国在全球人工智能领域的重要地位。此次论坛以「积淀·涌现」为主题,汇聚了全球顶尖的AI专家、...

「AIGC第一股」出门问问交上完美答卷:营收破2.2亿,同比增长88.5%

在生成式AI领域,出门问问作为“AIGC第一股”,凭借其2024年度财报的亮眼表现引发了业内广泛关注。财报显示,公司2023年总收入达3.9亿元,同比增长6%,其中AIGC...

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

阿里发布了首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,该模型能够处理文本、音频、图像和视频等多种模态,并实时生成文本和自然语音。Qwen2.5-Omni-7...

谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西

谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在...

音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno

2025年,昆仑万维发布的音乐大模型Mureka V6和O1在全球音乐圈引起了广泛关注,尤其是Mureka O1作为全球首个引入CoT(Chain of Thought)推理的音乐生成模型,...
1 2 3 4 40