标签:多模态

OpenAI版Her登场,GPT能实时视频通话了!德扑AI之父:比 o1“更受宠”的模式降临

OpenAI最近推出了高级语音模式的新功能,包括实时视频通话、屏幕共享和图像上传,这些功能将在未来几天内向所有Team用户以及大多数ChatGPT Plus和Pro用户推出...

谷歌发布Geimini2.0,开启Agent新时代

谷歌近期发布了其最新的AI模型Gemini2.0,标志着公司在AI领域的重大进步。Gemini2.0是首个实现原生多模态输入输出的模型,性能全面升级,速度是前代1.5 Pro的...

Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

苹果公司的研究团队最近发布了一项关于视频生成大模型的新研究,名为STIV(Scalable Text and Image Conditioned Video Generation)。这项研究提出了一个具...

Gemini 2.0发布了,可惜的是关注的人很少

谷歌近日宣布推出其人工智能大模型系列的最新作品——Gemini 2.0,其中Gemini 2.0 Flash实验版本率先亮相。这款模型能够生成文本、图像和语音,并处理多种格式...

Gemini 2.0来了:一个要做所有AI agent底座的超级模型

OpenAI在发布会的第五天宣布了ChatGPT与Apple设备的集成升级,用户可以在Apple设备上无需ChatGPT账号即可启用Apple Intelligence扩展,享受Siri的复杂任务转...

Google 深夜狙击 OpenAI:新 Agent 功能可以自己打开浏览器查资料了

2024年年末,AI领域迎来了一系列重要更新。Google发布了新模型Gemini 2.0,专注于Agent功能,即AI的感知环境、执行任务和独立决策能力。Google此次发布包括四...

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强模型登场了?

谷歌在与OpenAI的竞争中发布了Gemini 2.0系列人工智能模型的首个版本,名为Gemini 2.0 Flash。这个模型提供聊天版本供全球用户使用,并有一个实验版供开发人...

Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频、图片

谷歌发布了Gemini 2.0 Flash,标志着原生多模态输入输出模型时代的到来。这款模型在性能上与1.5 Pro型号相当,但成本效益、性能效率和速度均有所提升。Gemini...

智能体的未来:一家公司只需要一个 CEO?

AI Agent技术在企业中的应用与落地引起了业界的广泛关注。数势科技AI负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃在AICon全球人工智能开发与应用大...

智谱CEO张鹏:不必对Scaling Law放缓表达悲观,瞄向AGI的路程还很长|2024 T-EDGE

2024年T-EDGE创新大会暨钛媒体财经年会于12月6日至7日在北京市大兴区举行,主题为“All-in on Globalization,ALL-in on AI”,聚焦人工智能对全球各行业的影响...
1 4 5 6 7 8 24