标签:评估基准

理想中的开放域智能体系统应该如何落地?

李鹏教授在AICon 2024北京的演讲中深入探讨了大模型智能体在开放域问题中的应用和发展前景。大模型智能体作为人工智能领域的一个颠覆性创新,其与传统智能体...

Arena-Hard:开源高质量大模型评估基准

该文章介绍了一个专注于AIGC领域的专业社区,关注微软 & OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地的平台。文章指出,开发一...

中科大等意外发现:大模型不看图也能正确回答视觉问题!

近期,中科大、香港中文大学和上海AI Lab的研究团队发现了一个有趣的现象:即使没有查看图片,一些大型语言模型和多模态模型也能在多模态基准测试MMMU中取得...