标签:多模态

Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

苹果公司的研究团队最近发布了一项关于视频生成大模型的新研究,名为STIV(Scalable Text and Image Conditioned Video Generation)。这项研究提出了一个具...

Gemini 2.0发布了,可惜的是关注的人很少

谷歌近日宣布推出其人工智能大模型系列的最新作品——Gemini 2.0,其中Gemini 2.0 Flash实验版本率先亮相。这款模型能够生成文本、图像和语音,并处理多种格式...

Gemini 2.0来了:一个要做所有AI agent底座的超级模型

OpenAI在发布会的第五天宣布了ChatGPT与Apple设备的集成升级,用户可以在Apple设备上无需ChatGPT账号即可启用Apple Intelligence扩展,享受Siri的复杂任务转...

Google 深夜狙击 OpenAI:新 Agent 功能可以自己打开浏览器查资料了

2024年年末,AI领域迎来了一系列重要更新。Google发布了新模型Gemini 2.0,专注于Agent功能,即AI的感知环境、执行任务和独立决策能力。Google此次发布包括四...

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强模型登场了?

谷歌在与OpenAI的竞争中发布了Gemini 2.0系列人工智能模型的首个版本,名为Gemini 2.0 Flash。这个模型提供聊天版本供全球用户使用,并有一个实验版供开发人...

Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频、图片

谷歌发布了Gemini 2.0 Flash,标志着原生多模态输入输出模型时代的到来。这款模型在性能上与1.5 Pro型号相当,但成本效益、性能效率和速度均有所提升。Gemini...

智能体的未来:一家公司只需要一个 CEO?

AI Agent技术在企业中的应用与落地引起了业界的广泛关注。数势科技AI负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃在AICon全球人工智能开发与应用大...

智谱CEO张鹏:不必对Scaling Law放缓表达悲观,瞄向AGI的路程还很长|2024 T-EDGE

2024年T-EDGE创新大会暨钛媒体财经年会于12月6日至7日在北京市大兴区举行,主题为“All-in on Globalization,ALL-in on AI”,聚焦人工智能对全球各行业的影响...

吴恩达发布开源 Python 库,一个接口可调用多个大模型

吴恩达最近推出了一个名为aisuite的开源Python库,旨在简化开发人员集成多个大型语言模型(LLM)的过程。该库通过提供一个标准化接口,允许用户仅通过更改一...

微软「AI伴侣」Copilot Vision,让你用嘴浏览网页,还能和你一起打游戏

微软近期推出了一款名为Copilot Vision的AI助手,该产品集成在Edge浏览器中,旨在与用户实时协作上网并提供帮助。Copilot Vision能够理解用户的在线活动上下...
1 3 4 5 6 7 23