机器之心 | 第 8 页

通用文档理解新SOTA，多模态大模型TextMonkey来了

华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey，这是一个专注于文本相关任务的多模态大模型。TextMonkey在多个场景文本和文档...

AI-Agent

1年前 (2024)

离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

去年8月，前谷歌研究人员David Ha和Llion Jones创立了位于日本东京的人工智能公司Sakana AI，其中Llion Jones是谷歌2017年经典研究论文《Attention is all yo...

AIGC动态

1年前 (2024)

讨论下一个token预测时，我们可能正在走进陷阱

机器之心报道，编辑赵阳，最近围绕下一个token预测的讨论日益激烈。然而，许多人认为，下一个token预测的目标无法真正模拟人类思维。人类在执行计划之前会在...

AIGC动态

1年前 (2024)

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interaction Multi-modal Retr...

AIGC动态

1年前 (2024)

词曲创作只需几秒，「AI作曲家」Suno引爆音乐圈，第一手体验和攻略来了

近期，一款名为Suno的AI驱动歌曲生成器在社区内迅速传播，被称为“音乐界的ChatGPT”。Suno可以根据简单的提示创建从歌词到人声和配器的所有内容，用户可以引导...

AIGC动态

1年前 (2024)

32K上下文，Mistral 7B v0.2 基模型突然开源了

Mistral AI最新发布了，是的原始预训练模型，更新内容包括将提升至、设为以及取消。该模型在性能上有了显著提升，被认为是同尺寸级别中最优秀的模型之一。Mis...

AIGC动态

1年前 (2024)

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

物体姿态估计在现实世界应用中具有重要意义，如具身智能、机器人灵巧操作和增强现实等。在这一领域，研究热点从实例级别6D姿态估计转向类别级别6D姿态估计，...

AIGC动态

1年前 (2024)

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

视频理解技术旨在准确把握视频中的时空信息，但面临着短视频片段的时空冗余和复杂时空依赖关系的双重挑战。传统的三维卷积神经网络（CNN）和视频Transformer...

AIGC动态

1年前 (2024)

OpenAI进军好莱坞：电影制作用Sora指日可待

文章摘要【关键词】 OpenAI、视频生成、人工智能、好莱坞、合作关系 OpenAI最近展示了其自动生成视频的Sora，引起了好莱坞和硅谷的关注。公...

AIGC动态

1年前 (2024)

复刻Sora的通用视频生成能力，开源多智能体框架Mora来了

何恺明的目标是探索面向复杂世界的智能。Sora是首个引起广泛关注的大规模通用视频生成模型，自OpenAI于2024年2月推出以来，没有其他视频生成模型能在性能或支...

AIGC动态

1年前 (2024)

标签：机器之心

通用文档理解新SOTA，多模态大模型TextMonkey来了

离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

讨论下一个token预测时，我们可能正在走进陷阱

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

词曲创作只需几秒，「AI作曲家」Suno引爆音乐圈，第一手体验和攻略来了

32K上下文，Mistral 7B v0.2 基模型突然开源了

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

OpenAI进军好莱坞：电影制作用Sora指日可待

复刻Sora的通用视频生成能力，开源多智能体框架Mora来了

热门网址

标签：机器之心

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址