马斯克的Grok-1.5性能接近GPT-4
文章摘要
【关 键 词】 AI技术、Grok-1.5、性能提升、市场竞争、发布计划
Elon Musk 领导的 xAI 公司在发布开源 Grok-1 不久后,宣布了其专有语言模型 LLM Grok-1.5 的升级版。
Grok-1.5 预计将在下周发布,其推理和问题解决能力有了显著提升,性能即将达到包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 在内的其他知名开源和闭源 LLM 的水平。
Grok-1.5 能处理较长的上下文,但仍不及 Gemini 1.5 Pro 的处理能力。
Musk 提到,Grok-1.5 将支持 xAI 在 X 平台上推出的挑战 ChatGPT 的聊天机器人,并透露正在训练中的后续版本 Grok-2 将在所有方面超越当前的 AI 技术。
Grok-1.5 的新特点包括在多项基准测试中的显著提升,特别是在编程和数学任务方面。
在 MATH 和 GSM8K 基准测试中,Grok-1.5 分别取得了 50.6% 和 90% 的成绩,而在 HumanEval 基准测试中得分为 74.1%。
在 MMLU 基准测试中,新模型得分为 81.3%,大幅领先于 Grok-1 的 73%。
此外,Grok-1.5 的上下文窗口达到了 128,000 个 Token,是 Grok-1 的 16 倍,使其更适合分析、总结和从长篇文档中提取信息。
Grok-1.5 在追赶 OpenAI 和 Anthropic 的过程中,其提升的推理和问题解决能力使其在各项基准测试中超越了前代模型,并逐渐接近市场上的主流模型。
在 MMLU 测试中,Grok-1.5 超过了 Mistral Large,但仍稍逊于 Gemini 1.5 Pro、GPT-4 和 Claude 3 Opus。
在 GSM8K 基准测试上也略落后于 Google、OpenAI 和 Anthropic 的产品。
然而,在 HumanEval 基准测试中,Grok-1.5 占据了优势,超越了除 Claude 3 Opus 外的所有模型。
科技顾问 Brian Roemmele 认为,基于他对 Grok-1 的使用经验,Grok-2 一旦发布,将成为最强大的 LLM AI 平台之一。
关于 Grok-1.5 的发布情况,xAI 计划在下周开始上线部署,最初将面向早期测试者和已在 X 平台使用 Grok 聊天机器人的用户。
发布将分阶段进行,公司将对模型进行优化,并陆续引入新功能,同时逐步向更多用户开放。
Musk 通过将 AI 集成到 X 平台的订阅中,提升了 Grok 和 X 平台的使用率,并宣布该聊天机器人也将对所有支付每月 8 美元的 Premium 订阅用户开放。
此外,某些等级的认证订阅者将免费获得 Premium 和 Premium+ 的订阅福利,其中包括使用 Grok。
原文和模型
【原文链接】 阅读原文 [ 1155字 | 5分钟 ]
【原文作者】 AI大模型实验室
【摘要模型】 gpt-4
【摘要评分】 ★★☆☆☆