标签:算力效率

超越DPO,创新大模型优化算法SimPO

在人工智能领域,大模型如ChatGPT的优化至关重要特别是在根据人类反馈调整性能和减少非法内容输出方面。传统的直接偏好优化(DPO)方法依赖于参考模型,存在...

32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%

浪潮信息推出的源2.0-M32模型,采用MoE架构,仅需5.28%的算力消耗,就能在精度上对标Llama 3。这一模型的总参数量为40B,激活参数量为3.7B,展现了卓越的性价...