标签:多模态
腾讯版Sora开源!最强开源视频模型,130亿参数、物理模拟、电影级画质!
腾讯开源了名为HunyuanVideo(混元)的视频模型,这是一个拥有130亿参数的类Sora文生视频模型,是目前参数最大的开源视频模型。混元具备物理模拟、一镜到底、...
智源学者仉尚航:具身基础模型最终状态可能是「4D世界模型」丨具身先锋十人谈
具身多模态大模型作为新兴的创业机会,正受到业界的广泛关注。北京智源人工智能研究院在具身智能领域展示了多项研究成果,特别是仉尚航领导的研究中心,致力...
YOPO: 大幅缩减你的多模态大模型计算量至12%
本研究由罗切斯特大学的张泽良博士生、徐辰良副教授以及Adobe的赵文天、万锟和李宇哲研究员共同完成,提出了一种针对多模态大模型的剪枝方法,旨在降低计算复...
ChatGPT 发布后这两年,该关注什么?机器之心打包了24个主题350多篇高质量文章
自2022年11月30日OpenAI发布ChatGPT以来,AI领域经历了翻天覆地的变化。ChatGPT经过多代迭代,获得了多模态处理和强大推理能力,而OpenAI继续引领AI发展潮流...
工作坊报名|使用 TEN Framework 与 Azure,探索你的多模态交互新场景
GPT-4o Realtime API的发布标志着语音AI领域的新突破,带来了实时音频交互、自然语音生成、多语言能力和快速响应时间等创新特性。这些技术进步为全球企业在客...
智谱放大招:大模型从「Chat」走向「Act」
随着人工智能技术的发展,对话功能的Chatbot正在进化为具有自主性的Agent。预计到2025年,Agent将成为技术趋势之一,至少15%的日常工作决策将由Agentic AI自...
周鸿祎黑客短剧震撼首秀,直接带火纳米搜索!搜学写创,开启AI搜索3.0时代
奥特曼投资数千万美金购买域名、组建AI浏览器团队,预示着AI互联网时代的到来。AI对互联网的改造首先体现在搜索引擎上,纳米搜索的出现标志着搜索引擎3.0时代...
生成式AI迎来窗口期,阶跃星辰加速冲刺|钛媒体AGI
生成式AI领域的竞争日益激烈,各大公司纷纷推出新模型。OpenAI发布了Sora、GPT-4o、o1系列等模型,Runway发布了Framer图像模型,Midjourney准备发布V7版本,C...
如今的智能体,已经像人一样「浏览」视频了,国内就有
英伟达推出的NVIDIA AI Blueprint是一款预训练的、可自定义的AI工作流,旨在帮助开发者构建和部署生成式AI应用程序。它通过为视频配置“双眼与大脑”,提高了搜...
国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单
国内初创公司阶跃星辰的万亿参数语言大模型Step-2-16k-202411在LiveBench榜单上取得显著成绩,位列全球第五、国内第一。LiveBench是由图灵奖得主杨立昆联合纽...