标签:开发者应用

OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比

Grok-3模型发布后因评估方法引发争议,OpenAI团队公开指责其测试结果存在误导性。争议焦点集中在Grok-3的AIME 2025评估图中,其柱状图浅色部分标注为Con@64成...