音频生成

音频,audio

阿里开源R1-Omni,多模态情感识别

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...

击败 Manus?前百度 AI 高管创业1年多,放弃500 万用户搜索产品,转推“最强 Agent ”,自述 9 个月研发历程

总部位于美国加州帕洛阿尔托的初创公司 MainFunc 近日发布了 Genspark Super Agent,这是一款能够自主思考、计划、行动并使用工具来处理复杂任务的 AI 代理系...

语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%

百度最近为文小言接入了基于Cross-Attention的端到端语音语言大模型,实现了更自然、有情感的实时语音对话功能。这个全新的技术方案在用户体验上带来了显著提...

图灵奖得主预言中国成AI工业翘楚!海淀硬核AI先锋盛会,涌现更多未来成果

2025年中关村论坛人工智能主题日在北京海淀区隆重举行,标志着中国在全球人工智能领域的重要地位。此次论坛以「积淀·涌现」为主题,汇聚了全球顶尖的AI专家、...

「AIGC第一股」出门问问交上完美答卷:营收破2.2亿,同比增长88.5%

在生成式AI领域,出门问问作为“AIGC第一股”,凭借其2024年度财报的亮眼表现引发了业内广泛关注。财报显示,公司2023年总收入达3.9亿元,同比增长6%,其中AIGC...

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

阿里发布了首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,该模型能够处理文本、音频、图像和视频等多种模态,并实时生成文本和自然语音。Qwen2.5-Omni-7...

谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西

谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在...

音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno

2025年,昆仑万维发布的音乐大模型Mureka V6和O1在全球音乐圈引起了广泛关注,尤其是Mureka O1作为全球首个引入CoT(Chain of Thought)推理的音乐生成模型,...

全球首款音乐推理模型Mureka O1首秀!爆改周杰伦,AI音乐进入DeepSeek时刻

昆仑万维发布了全球首款音乐推理大模型Mureka O1,标志着AI音乐进入了“会思考”的时代。该模型基于Mureka V6基座模型,并引入了CoT(Chain of Thought)技术,...

凌晨“激战”!谷歌亮相新模型,OpenAI 紧急甩出 GPT-4o 动动嘴就能 P 图,网友:又要感谢 DeepSeek 了

OpenAI 近期发布了 GPT-4o 图像生成技术,该技术被直接集成到 ChatGPT 中,标志着图像生成功能成为其原生能力。这一新功能允许用户通过自然语言指令生成图像...
1 2 3 38