标签:视觉识别

刚刚,OpenAI发布AI Agent—Operator,全民智能体时代来了!

OpenAI最新发布了AI Agent——Operator,这是一个面向浏览器的智能体,能够模拟人类操作计算机的能力,完成在线订餐、预订酒店、购买机票等日常繁琐、重复任务...

端侧 GPT-4o来了! 面壁发布全新端侧模型,全模态、端到端,支持实时流式音视频通话!

面壁智能最近发布了全新一代小钢炮MiniCPM-o 2.6,这是一款端到端模型,参数规模为8B,在视觉、语音和多模态方面与GPT-4o-202405性能相当。MiniCPM-o 2.6支持...

人形机器人,能横扫工业场景吗?

具身智能在2024年成为科技领域的新热词,人形机器人和具身智能公司纷纷成立。尽管许多人形机器人企业将工业场景作为落地的第一场景,但目前的人形机器人和具...

微软开源视觉GUI智能体:增强GPT-4V能力,超3800颗星

微软研究人员开发了一款名为OmniParser的开源视觉GUI智能体,旨在提升大语言模型(LLM)如GPT-4V在用户界面(UI)识别和操作任务中的表现。OmniParser通过将U...

超强实体ChatGPT机器人:语音推理、视觉识别,“终结者”来啦!

Figure.AI联合创始人Brett Adcock发布了新一代实体机器人Figure 02,该机器人在前一代01的基础上进行了软硬件的大量更新。Figure 02搭载了6个RGB摄像头、Open...

GPT-4o 引爆小红书打卡潮,推动 Vision Pro想象,刷新微软、Adobe 产品线

GPT-4o 的多模态视觉能力引发了社交媒体上的热议,尤其是在小红书上,用户们热衷于测试其识别街景的能力。与其它多模态 AI 模型相比,GPT-4o 显示出了更高的...