标签:多模态
大模型的发展方向,Chatgpt?AI Agent?两万字深度思考!
本文是李博杰在知乎分享的关于AI Agent的全面介绍和总结。文章首先回顾了ChatGPT发布两年来的发展,特别是大模型从文字对话扩展到文生视频的能力。作者分享了...
全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3!5亿融资Karpathy都投了
Ideogram是一款新兴的文生图工具,它在文字渲染能力上表现出色,成功获得了8000万美元的融资。这款工具能够根据用户的提示生成带有自然悬浮文字或立体文字的...
商汤全球首创「日日新SenseNova 4.0」惊天大模型!彻底颠覆你的AI体验
近日,中国人工智能企业商汤宣布推出全球首个多模态大型模型“日日新SenseNova 4.0”。该模型能同时处理文本、图像、音频等不同形式的数据,并在多项任务上超越...
谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?
Gemini 1.5 Pro 测评摘要:谷歌推出的Gemini 1.5 Pro模型在多模态数据处理方面展现出了显著的能力,尤其是在处理超长上下文方面。该模型能够处理高达100万tok...
与Sora一样能生成视频、图像,还能一次解读100万数据!
本文介绍了加州大学伯克利分校研究人员开源的大世界模型(LWM),这是一种多模态自回归模型,具备文本、音频、图像和视频的生成与理解能力。LWM能够一次性精...
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
Sora 视频生成技术引发关注OpenAI 发布的 Sora 视频生成技术引起了业界的广泛关注。Sora 能够生成长达 1 分钟的流畅、逼真视频,这一技术突破让研究者担心国...
Pieter Abbeel 新工作“大世界模型”:轻松玩转 1 小时长视频,一对一 QA 视频内容细节
总结:伯克利人工智能实验室发布了名为“Large World Model(LWM)”的研究成果,这是一个能够处理长视频和超长文本任务的AI模型。LWM的核心在于其能够理解和预...
LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPA
在近期的人工智能领域,「世界模型」的概念引起了广泛关注。Sora和LeCun的V-JEPA模型相继问世,展示了AI在理解物理世界方面的潜力。Sora以其逼真的视频生成能...
Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4
新智元报道:谷歌的Gemini 1.5模型在AI圈大佬们的极限测试中展现出了强大的实力。这些测试包括分析视频内容、处理长视频和音频、翻译稀有语言、理解长论文和...
GPT-5首次曝光后,Altman:现在最重要的事就是GPT-5
OpenAI首席执行官Sam Altman在达沃斯论坛上表示,他的首要任务是推出下一代大模型,即GPT-5。GPT-5将是一个多模态模型,支持语音、图像、代码和视频,并在个...