图像生成

开源端到端语音大模型：直接从原始音频输入，生成语音输出

Step-Audio团队近期开源了一个端到端的语音大模型Step-Audio-AQAA，该模型能够直接理解音频输入并生成自然流畅的语音回答，而无需先将语音转换为文本。这一技...

AIGC动态

1周前

在AI时代的浪潮下，顶尖技术人才的市场价值被推升至前所未有的高度。无论是谷歌Transformer论文八子，还是从OpenAI出走的科学家，他们的选择直接影响企业技术...

AIGC动态

2周前

百度于6月30日正式开源了文心大模型4.5系列，涵盖10款不同参数规模的模型，包括47B、3B激活参数的混合专家（MoE）模型和0.3B参数的稠密型模型。这些模型已在...

AIGC动态

2周前

大规模预训练和微调的模式在机器学习领域取得了显著成功，但在强化学习（RL）中的应用仍面临挑战。强化学习需要对时间和意图进行推理，传统方法在处理长时间...

AIGC动态

2周前

阿里最新发布的多模态模型Qwen-VLo在图像生成和编辑领域展现了强大的能力，引发了广泛关注。该模型在原有的多模态理解和生成能力基础上进行了全面升级，具备...

AIGC动态

2周前

香港科技大学与Manycore联合开源了一种名为SpatialLM的空间大模型，专注于处理3D点云数据并生成结构化的三维场景理解输出。这一模型的目标是让机器能够像人类...

AIGC动态

2周前

豆包大模型1.6（Seed 1.6-Thinking）在2025年高考中取得了文科683分、理科648分的成绩，位列全球顶级通用大语言模型的前列，具备冲击清华和北大的实力。这一...

AIGC动态

2周前

谷歌正式发布了Gemma 3n完整版，这是一款面向开发者的开源大模型，具备输入图像、音频和视频的能力，并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和...

AIGC动态

2周前

关于GPT-5的讨论近期在科技界引发广泛关注，多个线索表明OpenAI可能已开始内部测试这一新一代模型。Sam Altman在X平台关注神秘人物Yacine的举动，结合OpenAI...

AIGC动态

2周前

边缘AI技术自去年以来进入爆发式增长阶段，预计到2025年，全球边缘AI市场价值将达到250亿美元，硬件设备总量突破20亿台，芯片市场规模达730亿美元。2025年至2...

AIGC动态

2周前