标签:优化transformer架构

350亿参数、开放权重,Transformer作者创业后推出新大模型

Cohere公司推出了新的大语言模型Command-R,该模型具有35B的参数量,属于可扩展模型类别,平衡了高效率和高精度,适用于大规模生产工作负载。Command-R针对检...