标签:评估框架

这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct

艾伦人工智能研究所(Ai2)最近推出了Tülu 3,这是一个开源的大型语言模型,包含8B和70B两个版本,并且未来将推出405B版本。Tülu 3的性能超过了Llama 3.1 Ins...

李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS

李飞飞和吴佳俊团队提出了一个新的评估框架——Embodied Agent Interface(EAI),旨在全面检查具身智能决策的四项关键子能力。EAI框架提供了统一的目标表示方...