标签:多模态

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

Gemini 1.5 Pro 测评摘要:谷歌推出的Gemini 1.5 Pro模型在多模态数据处理方面展现出了显著的能力,尤其是在处理超长上下文方面。该模型能够处理高达100万tok...

与Sora一样能生成视频、图像,还能一次解读100万数据!

本文介绍了加州大学伯克利分校研究人员开源的大世界模型(LWM),这是一种多模态自回归模型,具备文本、音频、图像和视频的生成与理解能力。LWM能够一次性精...

国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

Sora 视频生成技术引发关注OpenAI 发布的 Sora 视频生成技术引起了业界的广泛关注。Sora 能够生成长达 1 分钟的流畅、逼真视频,这一技术突破让研究者担心国...

Pieter Abbeel 新工作“大世界模型”:轻松玩转 1 小时长视频,一对一 QA 视频内容细节

总结:伯克利人工智能实验室发布了名为“Large World Model(LWM)”的研究成果,这是一个能够处理长视频和超长文本任务的AI模型。LWM的核心在于其能够理解和预...

LeCun怒斥Sora不能理解物理世界!Meta首发AI视频「世界模型」V-JEPA

在近期的人工智能领域,「世界模型」的概念引起了广泛关注。Sora和LeCun的V-JEPA模型相继问世,展示了AI在理解物理世界方面的潜力。Sora以其逼真的视频生成能...

Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4

新智元报道:谷歌的Gemini 1.5模型在AI圈大佬们的极限测试中展现出了强大的实力。这些测试包括分析视频内容、处理长视频和音频、翻译稀有语言、理解长论文和...

GPT-5首次曝光后,Altman:现在最重要的事就是GPT-5

OpenAI首席执行官Sam Altman在达沃斯论坛上表示,他的首要任务是推出下一代大模型,即GPT-5。GPT-5将是一个多模态模型,支持语音、图像、代码和视频,并在个...

阿里大模型春节礼包来了:代码可执行率超GPT-4,1.5版本全系列开源

本文介绍了阿里发布的Qwen1.5版本,其中包含多个尺寸的模型,最大的Qwen1.5-72B-Chat模型在各项评估中表现优异。该版本集成到了Hugging Face transformers,...

谷歌将发布 Gemini Ultra,这是为了对应ChatGPT 5 吗?

根据泄露的文档,Google 的 Gemini Ultra 模型将于 2 月 7 日上线,同时 Google 聊天机器人 Bard 将更名为 Gemini。这一品牌整合标志着 Google 将人工智能产...

生成式AI与大语言模型的区别

根据您提供的文章总结,我为您进行了文本分析,并在重要的词语或语句两边加上了标签:第一段介绍了生成式人工智能和大型语言模型(LLMs)的区别和相似之处,...
1 21 22 23 24