图像生成

图像,绘画

Meta开源创新大模型架构AU-Nets

在大模型领域,文本数据的分解和处理一直是研究的核心问题。传统的分词方法,如Byte Pair Encoding,通常将文本分割成固定粒度的单元,并构建静态词汇表供模...

关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

训练大型模型在机器人领域面临的核心挑战在于获取真实世界交互数据的成本极高。视觉-语言-动作模型(VLA)需要大量机器人执行任务的真实数据,这类数据的采集...

刚刚,腾讯发布了他们的首个全栈AI IDE。

腾讯在发布会上推出了全新的AI编程工具CodeBuddy IDE,标志着其在AI编程领域的进一步创新。与之前的插件版本不同,CodeBuddy IDE以独立开发工作台的形式亮相...

蚂蚁AQ登顶Apple医疗榜:千亿参数+苹果生态,AI私人医生真要来了?

蚂蚁集团旗下的AI健康应用AQ在iOS版上线后迅速攀升至苹果应用商店医疗榜榜首,显示出用户对具备专业医疗能力的AI助手的强烈需求。AQ的成功不仅在于其与苹果生...

利好独立开发,MiniMax Agent 现在连后端网站都能做了

ChatGPT 正式推出 Agent 模式,标志着 OpenAI 开始布局通用 Agent 领域。这一模式能够帮助用户完成复杂的电脑任务,重要性不亚于 GPT-5 的发布。然而,OpenAI...

机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验

机械臂技术正从单一抓取任务向复杂自主操作迈进,其核心挑战在于感知、理解与动作控制的高效协同。近年来,视觉-语言-动作(VLA)模型的发展使机器人能够整合...

仅需0.7秒单图像实时3D重建,开源扩散模型

单图像3D重建是计算机视觉领域的一项基础且极具挑战的难题,旨在从单一视角的二维图像中恢复出三维物体的形状和结构。学术界和工业界主要探索了两种技术路线...

对话五条人AI MV主创:究竟是人带着AI飞,还是AI带着人类飞

五条人乐队与前沿AIGC技术的碰撞催生出《地球恋曲》MV,这部几乎完全由AI制作的作品呈现出怪诞迷幻的视觉风格。身着银色宇航服的乐队成员背着红色喇叭攀登山...

世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台

Decart公司发布了全球首个实时、无时长限制且支持任意视频流的扩散视频模型MirageLSD,标志着AI视频生成领域的革命性突破。该模型能够在40毫秒的延迟内将任何...

MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer

MiniMax在7月10日举办的M1技术研讨会汇集了全球顶尖的研究者和业界嘉宾,深入探讨了模型架构创新、RL训练、长上下文应用等前沿话题。RL能否赋予模型新能力?...
1 2 3 4 5 6 139