马斯克开源新模型：能实时抓取社交平台数据，20万块H100训练

70 0 0

文章摘要

马斯克宣布旗下大模型平台xAI开源去年最佳模型Grok – 2.5，并将在6个月内开源旗舰模型Grok 3。与其他同类大模型相比，Grok – 2.5的最强功能是可实时抓取社交平台X的数据。它使用当时最强的训练平台Colossus超20万块H100进行训练，性能超过GPT – 4o、Claude 3.5等模型，曾位列大模型竞技场第2名。

Grok – 2.5在架构、训练等方面有诸多特点。架构上采用混合专家模型架构，约3140亿个参数，每次任务激活约860亿个活跃参数，上下文窗口达128,000个token，适用于复杂推理场景。训练方面，xAI投入Colossus超级计算机集群，用20万块NVIDIA H100 GPU，仅122天完成训练。训练数据覆盖截至2024年初的海量文本和代码，并通过X平台实时数据流更新。它还采用FP8混合精度训练和多token预测目标技术，训练速度提升3倍。

在应用场景上，Grok – 2.5实现多领域突破。舆情监测与热点追踪方面，能实时抓取X平台数据生成舆情报告，识别舆论风险点；金融与经济分析领域，可实时整合财经数据进行趋势预测；多模态交互方面，整合Flux.1模型，能处理图像、音频等内容。

在性能表现上，发布初期在LMSYS中文对话排行榜上超越Claude 3.5和GPT – 4 Turbo；数学推理能力在MATH基准测试中准确率达23.9%；科学问答任务在GSM8K数据集上表现优于开源竞品；代码生成方面，HumanEval测试通过率为63.2%。

网友对Grok – 2.5开源表示感谢和期待，认为开源能缩小与闭源人工智能的差距，让世界受益，还希望能发布训练脚本等。开源社区也获得了可实际使用的完整模型。