标签:机器之心
通用文档理解新SOTA,多模态大模型TextMonkey来了
华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey,这是一个专注于文本相关任务的多模态大模型。TextMonkey在多个场景文本和文档...
离职谷歌的Transformer作者创业,连发3个模型(附技术报告)
去年8月,前谷歌研究人员David Ha和Llion Jones创立了位于日本东京的人工智能公司Sakana AI,其中Llion Jones是谷歌2017年经典研究论文《Attention is all yo...
讨论下一个token预测时,我们可能正在走进陷阱
机器之心报道,编辑赵阳,最近围绕下一个token预测的讨论日益激烈。然而,许多人认为,下一个token预测的目标无法真正模拟人类思维。人类在执行计划之前会在...
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interaction Multi-modal Retr...
词曲创作只需几秒,「AI作曲家」Suno引爆音乐圈,第一手体验和攻略来了
近期,一款名为Suno的AI驱动歌曲生成器在社区内迅速传播,被称为“音乐界的ChatGPT”。Suno可以根据简单的提示创建从歌词到人声和配器的所有内容,用户可以引导...
32K上下文,Mistral 7B v0.2 基模型突然开源了
Mistral AI最新发布了,是的原始预训练模型,更新内容包括将提升至、设为以及取消。该模型在性能上有了显著提升,被认为是同尺寸级别中最优秀的模型之一。Mis...
CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在现实世界应用中具有重要意义,如具身智能、机器人灵巧操作和增强现实等。在这一领域,研究热点从实例级别6D姿态估计转向类别级别6D姿态估计,...
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解技术旨在准确把握视频中的时空信息,但面临着短视频片段的时空冗余和复杂时空依赖关系的双重挑战。传统的三维卷积神经网络(CNN)和视频Transformer...
OpenAI进军好莱坞:电影制作用Sora指日可待
文章摘要 【关 键 词】 OpenAI、视频生成、人工智能、好莱坞、合作关系 OpenAI最近展示了其自动生成视频的Sora,引起了好莱坞和硅谷的关注。 公...
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了
何恺明的目标是探索面向复杂世界的智能。Sora是首个引起广泛关注的大规模通用视频生成模型,自OpenAI于2024年2月推出以来,没有其他视频生成模型能在性能或支...