标签:机器之心

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

这篇文章介绍了腾讯和复旦大学研究团队提出的创新性AI生成框架MovieLLM,旨在解决长视频理解的挑战。长视频的分析与理解一直是一个难题,因为缺乏高质量、多...

LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?

本文主要讨论了人工智能领域的先锋人物Yann LeCun的观点和对未来人工智能发展的展望。LeCun在接受Lex Fridman播客采访时,分享了他对开源、LLM(大型语言模型...

基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了

华为诺亚方舟实验室的研究团队提出了一种新的训练方法,名为由弱到强式训练(weak-to-strong training),旨在解决个人研究者在开发顶级文生图(T2I)模型时...

大模型在复杂推理任务上潜力如何?多智能体互动框架ThinkThrice玩转剧本杀

这篇文章介绍了一项由加拿大蒙特利尔大学和 Mila 研究所的研究团队进行的关于将人工智能(AI)引入剧本杀游戏的研究。剧本杀是一种多角色扮演侦探游戏,玩家...

谷歌具身智能新研究:比RT-2优秀的RT-H来了

谷歌DeepMind的RT系列机器人在具身智能研究中取得了显著进展。RT-2是全球首个控制机器人的视觉-语言-动作(VLA)模型,能够通过对话识别图像并执行任务。现在...

教授何恺明在MIT的第一堂课

这篇文章报道了麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况,教室座无虚虚,吸引了众多学生。其中,新晋教...

奥特曼重返OpenAI董事会:看完3万份文件,调查组认定了

模型信息 【模型公司】 OpenAI 【模型名称】 gpt-3.5-turbo-0125 【摘要评分】 ★★☆☆☆   文章摘要 【关 键 词】 OpenAI、调查结果、管理层、变...

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

摘要:本文介绍了一种名为OmniQuant的新型大语言模型(LLM)量化算法。该算法由上海人工智能实验室、香港大学和香港中文大学的研究者共同提出,旨在解决大语...

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

机器之心专栏机器之心编辑部近期报道了Meta开源的LLaMA架构在大型语言模型(LLM)中的成功应用,以及最新研究成果VisionLLaMA的进展。VisionLLaMA是一种旨在实...

Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时

在最近的报道中,AI 图像生成公司 Midjourney 和 Stability AI 之间发生了一起引人注目的事件。据爆料者透露,Midjourney 的服务器在上周六凌晨遭受了来自 St...
1 13 14 15 16 17 22