标签：OCR识别

微软开源视觉GUI智能体：增强GPT-4V能力，超3800颗星

微软研究人员开发了一款名为OmniParser的开源视觉GUI智能体，旨在提升大语言模型（LLM）如GPT-4V在用户界面（UI）识别和操作任务中的表现。OmniParser通过将U...

AIGC动态

10个月前

谷歌、微软加入「AI 操控电脑」战场：谷歌版贾维斯将由Gemini 2.0加持

科技巨头们正将AI智能体操控电脑屏幕作为未来发展的重点。Anthropic展示了Claude 3.5能够自主看屏幕操作光标完成复杂任务。谷歌正在开发名为“Project Jarvis”...

AIGC动态

10个月前