标签:多模态

全面超越GPT-4,Claude 3终于来了,有大学生智商,支持百万token

摘要:文章介绍了OpenAI的竞争对手Anthropic发布的新一代AI大模型系列Claude 3,其中Opus模型在多项基准测试中表现超过了GPT-4和Gemini 1.0 Ultra,树立了新...

复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持

模型信息 【模型公司】 月之暗面 【模型名称】 moonshot-v1-32k 【摘要评分】 ★★★★★   文章摘要 【关 键 词】 机器之心、Sora、多模态、AnyGPT...

机器人再度大幅进化!阿西莫夫三法则还有效吗?| 大模型一周大事

在本周的大模型行业动态中,InfoQ 研究中心为我们带来了一系列令人兴奋的进展。英国 Engineered Arts 的 Ameca、特斯拉的 Optimus 和 Sanctuary AI 的 Phoeni...

大模型的发展方向,Chatgpt?AI Agent?两万字深度思考!

本文是李博杰在知乎分享的关于AI Agent的全面介绍和总结。文章首先回顾了ChatGPT发布两年来的发展,特别是大模型从文字对话扩展到文生视频的能力。作者分享了...

全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3!5亿融资Karpathy都投了

Ideogram是一款新兴的文生图工具,它在文字渲染能力上表现出色,成功获得了8000万美元的融资。这款工具能够根据用户的提示生成带有自然悬浮文字或立体文字的...

商汤全球首创「日日新SenseNova 4.0」惊天大模型!彻底颠覆你的AI体验

近日,中国人工智能企业商汤宣布推出全球首个多模态大型模型“日日新SenseNova 4.0”。该模型能同时处理文本、图像、音频等不同形式的数据,并在多项任务上超越...

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

Gemini 1.5 Pro 测评摘要:谷歌推出的Gemini 1.5 Pro模型在多模态数据处理方面展现出了显著的能力,尤其是在处理超长上下文方面。该模型能够处理高达100万tok...

与Sora一样能生成视频、图像,还能一次解读100万数据!

本文介绍了加州大学伯克利分校研究人员开源的大世界模型(LWM),这是一种多模态自回归模型,具备文本、音频、图像和视频的生成与理解能力。LWM能够一次性精...

国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

Sora 视频生成技术引发关注OpenAI 发布的 Sora 视频生成技术引起了业界的广泛关注。Sora 能够生成长达 1 分钟的流畅、逼真视频,这一技术突破让研究者担心国...

Pieter Abbeel 新工作“大世界模型”:轻松玩转 1 小时长视频,一对一 QA 视频内容细节

总结:伯克利人工智能实验室发布了名为“Large World Model(LWM)”的研究成果,这是一个能够处理长视频和超长文本任务的AI模型。LWM的核心在于其能够理解和预...
1 13 14 15 16 17