标签:多模态

通用文档理解新SOTA,多模态大模型TextMonkey来了

华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey,这是一个专注于文本相关任务的多模态大模型。TextMonkey在多个场景文本和文档...

剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interaction Multi-modal Retr...

3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑

这篇新智元报道介绍了一种名为3D-VLA(3D视觉-语言-动作)的新型生成式视觉-语言-行动模型,该模型在多项任务中显著提高了推理、多模态生成和规划的能力。与...

吴恩达:AI智能体工作流今年将有巨大进展,可能超过下一代基础模型

这篇文章报道了人工智能领域的最新发展趋势,特别关注了生成式 AI 模型在多模态方面的进展以及未来的发展方向。斯坦福大学教授吴恩达指出,AI 智能体工作流将...

一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V

,正式向开发者开放,推出了三款强大的,以促进生态发展和模型在更多应用场景的落地。这三款模型包括:(支持通用聊天、问答、对话、写作、翻译等功能)、(2...

零一万物 API 上线,用户反馈多模态中文图表体验超过 GPT-4V

零一万物公司近日发布了Yi大模型API开放平台,为开发者提供通用Chat、200k超长上下文、多模态交互等模型。零一万物由李开复创办于2023年6月,成功发布了Yi系...

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

文章介绍了杨植麟的大模型公司月之暗面进行了一次公开活动,发布了更长上下文窗口的版本,即200万字上下文版本,并在Kimi上开启内测。虽然杨植麟本人未露面,...

COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim

本文介绍了哈工大联合度小满推出的针对多模态模型的自适应剪枝算法 SmartTrim,该算法旨在解决基于 Transformer 结构的视觉语言大模型(VLM)在实际环境中部...

我问了 Gemini 1.5 Pro 五个问题,找到了初遇ChatGPT的感觉|AI 鲜测

文章介绍了一个月前Sora和Gemini 1.5同时推出的故事,其中Sora被冠以AI界的汪峰之称,引起了人们的震惊和讨论。Gemini 1.5 Pro在发布后开放了Waitlist,但没...

国产大模型创业一哥:秀商业化,布局Sora,“全线对标OpenAI”

文章介绍了智谱AI在商业化领域的最新进展,包括融资、投资和商业化成果。智谱AI在过去一年中获得了超过25亿元的融资,同时积极投资于大模型公司。在商业化方...
1 6 7 8 9 10 12