标签:泛化能力

6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

由微软和MIT等机构的研究人员提出的新训练范式,通过因果模型构建数据集,成功地提升了模型的推理能力。该研究团队训练了一个仅有67M参数的微型Transformer模...

谷歌推出全新模型,将Transformer与NAR相结合

在AIGC领域,Transformer架构的引入极大地推动了大模型的技术创新,催生了ChatGPT、Coplit、讯飞星火、文心一言等生成式AI产品。尽管Transformer在自然语言理...

“梗王”大模型,靠讲笑话登上CVPR | 中山大学

这篇文章介绍了中山大学HCP实验室团队与Sea AI Lab以及哈佛大学合作的研究成果,他们提出了一种新的训练方法CLoT,旨在激发多模态大模型的创造力。首先,团队...

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

物体姿态估计在现实世界应用中具有重要意义,如具身智能、机器人灵巧操作和增强现实等。在这一领域,研究热点从实例级别6D姿态估计转向类别级别6D姿态估计,...

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

本文介绍了清华大学叉院高阳教授机器人研究团队最新提出的具身智能框架CoPa(Robotic Manipulation through Spatial Constraints of Parts),该框架利用视觉...

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

这篇文章介绍了一项由西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作,名为Xwin,旨在探索通用预训练下规模为7B的语言...

智能体的ChatGPT时刻!DeepMind通用AI向人类玩家进化,开始理解游戏

这篇文章报道了谷歌 DeepMind 最新的研究成果:他们开发了一种名为SIMA(Scalable Instructable Multiworld Agent)的通用AI智能体,适用于3D虚拟环境。SIMA...

补齐Transformer规划短板,田渊栋团队的Searchformer火了

摘要:机器之心报道了Meta FAIR田渊栋团队提出的Searchformer模型,这是一种基于Transformer的模型,旨在提升Transformer在多步规划任务中的性能。尽管Transf...

Sora带来的四点启发(抱歉,内文不含“xx行业已死、AI一夜变天”等内容)

文章讨论了Sora的发布及其对AI领域的影响。首先,作者探讨了视觉数据在训练模型中的作用,以及它如何帮助模型获得泛化能力。Sora模型通过结合视频数据和大语...
1 2