标签:自动化评估

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库

斯坦福大学的研究揭示了大型语言模型(LLMs)在数学推理任务中的一个显著弱点:仅通过改变题目中的变量名称和取值范围,就能显著降低模型的准确率。这一发现...

LinkedIn分享了自家团队构建AI产品的经验,细节满满

LinkedIn 技术团队将 AI 技术融入其产品,以提高用户在寻找工作和浏览专业内容时的体验。技术主管 Juan Pablo Bottaro 和高级工程师 Karthik Ramgopal 分享了...

能自动查找各种漏洞,专用于网络安全的AI Agent

AI Agent在大规模语言模型的支持下,已经诞生了AutoGPT、OpenDevin和Devika等一系列优秀产品,并在编程开发、日常工作以及金融领域等实现了具体场景的应用。...