“RULER基准”的搜索结果

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
研究人员近日针对大型语言模型处理长文本的能力进行了深入探讨,并提出了名为RULER的新基准测试。该测试包含四大类共13项任务,旨在评估...