标签：评估框架

别让大模型想太多了，过度思考会影响性能

加州大学伯克利分校和苏黎世联邦理工学院等高校的研究人员深入探讨了大模型在执行Agent任务时面临的“过度思考”问题。过度思考是指大模型过度依赖内部推理，而...

AI-Agent

6个月前

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

艾伦人工智能研究所（Ai2）最近推出了Tülu 3，这是一个开源的大型语言模型，包含8B和70B两个版本，并且未来将推出405B版本。Tülu 3的性能超过了Llama 3.1 Ins...

AIGC动态

10个月前

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

李飞飞和吴佳俊团队提出了一个新的评估框架——Embodied Agent Interface（EAI），旨在全面检查具身智能决策的四项关键子能力。EAI框架提供了统一的目标表示方...

AI-Agent

10个月前