视觉识别 | 学习AIGC

刚刚，OpenAI发布AI Agent—Operator，全民智能体时代来了！

OpenAI最新发布了AI Agent——Operator，这是一个面向浏览器的智能体，能够模拟人类操作计算机的能力，完成在线订餐、预订酒店、购买机票等日常繁琐、重复任务...

AI-Agent

7个月前

面壁智能最近发布了全新一代小钢炮MiniCPM-o 2.6，这是一款端到端模型，参数规模为8B，在视觉、语音和多模态方面与GPT-4o-202405性能相当。MiniCPM-o 2.6支持...

AIGC动态

8个月前

具身智能在2024年成为科技领域的新热词，人形机器人和具身智能公司纷纷成立。尽管许多人形机器人企业将工业场景作为落地的第一场景，但目前的人形机器人和具...

AIGC动态

9个月前

微软研究人员开发了一款名为OmniParser的开源视觉GUI智能体，旨在提升大语言模型（LLM）如GPT-4V在用户界面（UI）识别和操作任务中的表现。OmniParser通过将U...

AIGC动态

10个月前

Figure.AI联合创始人Brett Adcock发布了新一代实体机器人Figure 02，该机器人在前一代01的基础上进行了软硬件的大量更新。Figure 02搭载了6个RGB摄像头、Open...

AIGC动态

1年前 (2024)

GPT-4o 的多模态视觉能力引发了社交媒体上的热议，尤其是在小红书上，用户们热衷于测试其识别街景的能力。与其它多模态 AI 模型相比，GPT-4o 显示出了更高的...

AIGC动态

1年前 (2024)