面壁智能低调开源大模型“理科状元”！LeetCode 周赛超越80%人类选手，推理性能超 Llama3-70B

AIGC动态1年前 (2024)发布 ai-front

2,722 0 0

面壁智能低调开源大模型“理科状元”！LeetCode 周赛超越80%人类选手，推理性能超 Llama3-70B

文章摘要

面壁智能近期低调开源了一个名为Eurux-8x22B的大模型，该模型在复杂推理综合性能方面超越了Llama3-70B，成为新的开源大模型SOTA（State of the Art），并被誉为“理科状元”。Eurux-8x22B的激活参数为39B，推理速度快，支持64k上下文大小，而Llama3-70B的上下文大小为8K。Eurux-8x22B是由Mistral-8x22B对齐而来，其综合性能不输于Llama3-70B。

Eurux-8x22B在LeetCode（180道编程真题）和TheoremQA（美国大学水准的STEM题目）这两个基准测试中表现优异，超过了现有开源模型。在实际应用中，Eurux-8x22B参加了LeetCode周赛，解决了四道算法题中的三道，综合排名超越了80%的人类参赛选手，显示出其优秀的Python编程能力。

在数学题解答方面，Eurux-8x22B能够给出清晰的解题思路，并一步步拆解执行，得到正确答案。它在解答高中排列组合题、代数题、向量代数题和高考函数题等方面都表现出了强大的能力。

面壁智能是国内少数兼具大模型算法与infra能力的团队，其打造了一条全流程高效模型生产线。Eurux-8x22B的出色表现得益于面壁Ultra对齐技术的更新，特别是新增的大规模、高质量对齐数据集UltraInteract。UltraInteract包含了12个开源数据集的86K条指令和220K偏好对，共有五十万条左右数据。面壁智能通过严格的质量控制、逐步推理、多轮交互和首创的偏好树结构来构建高质量的对齐数据。

面壁智能还发现，在推理任务中，提升正确答案的奖励值对于偏好对齐的效果十分重要。他们采用了KTO和NCA两种偏好对齐算法，取得了更好的效果。UltraInteract数据集也在开源社区受到了广泛好评。

面壁智能表示，未来将持续开源高效大模型及其数据集，以开源开放的精神惠及所有人。同时，还推荐了《2024年第1季度中国大模型季度监测报告》和即将于5月17日开幕的AICon全球人工智能开发与应用大会。