马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

AIGC动态10小时前发布 AIGCOPEN
70 0 0
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

 

文章摘要


【关 键 词】 Grok-2.5模型开源实时数据多域应用性能优异

马斯克宣布旗下大模型平台xAI开源去年最佳模型Grok – 2.5,并将在6个月内开源旗舰模型Grok 3。与其他同类大模型相比,Grok – 2.5的最强功能是可实时抓取社交平台X的数据。它使用当时最强的训练平台Colossus超20万块H100进行训练,性能超过GPT – 4o、Claude 3.5等模型,曾位列大模型竞技场第2名。

Grok – 2.5在架构、训练等方面有诸多特点。架构上采用混合专家模型架构,约3140亿个参数,每次任务激活约860亿个活跃参数,上下文窗口达128,000个token,适用于复杂推理场景。训练方面,xAI投入Colossus超级计算机集群,用20万块NVIDIA H100 GPU,仅122天完成训练。训练数据覆盖截至2024年初的海量文本和代码,并通过X平台实时数据流更新。它还采用FP8混合精度训练和多token预测目标技术,训练速度提升3倍。

在应用场景上,Grok – 2.5实现多领域突破。舆情监测与热点追踪方面,能实时抓取X平台数据生成舆情报告,识别舆论风险点;金融与经济分析领域,可实时整合财经数据进行趋势预测;多模态交互方面,整合Flux.1模型,能处理图像、音频等内容。

在性能表现上,发布初期在LMSYS中文对话排行榜上超越Claude 3.5和GPT – 4 Turbo;数学推理能力在MATH基准测试中准确率达23.9%;科学问答任务在GSM8K数据集上表现优于开源竞品;代码生成方面,HumanEval测试通过率为63.2%。

网友对Grok – 2.5开源表示感谢和期待,认为开源能缩小与闭源人工智能的差距,让世界受益,还希望能发布训练脚本等。开源社区也获得了可实际使用的完整模型。

原文和模型


【原文链接】 阅读原文 [ 1110字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...