标签:RULER基准

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

研究人员近日针对大型语言模型处理长文本的能力进行了深入探讨,并提出了名为RULER的新基准测试。该测试包含四大类共13项任务,旨在评估模型的“有效上下文”长...