模型测试 | 学习AIGC

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

前沿AI模型能否做到博士级推理引发关注。此前谷歌、OpenAI的模型在数学奥林匹克水平测试中达金牌水准，让人联想其是否具备解决博士级科研难题的推理能力，但...

AIGC动态

3周前

Vending-Bench模拟环境旨在测试大模型在管理自动售货机业务中的表现，结果显示Claude 3.5 Sonnet在净资产和运营稳定性上表现最佳，而人类参与者的表现则位居...

AIGC动态

3个月前

卡内基梅隆大学（CMU）的研究团队针对公务员考试中的逻辑推理题，设计了一套名为VisualPuzzles的视觉推理基准测试，旨在评估多模态大模型的推理能力。该测试...

AIGC动态

5个月前

今天凌晨，OpenAI首席执行官Sam Altman透露GPT-4.5已进入测试阶段，其展现的AGI（通用人工智能）体验深度远超预期，标志着该模型距离正式发布仅一步之遥。这...

AIGC动态

7个月前

腾讯公司正在开发其首个文生视频模型，目前该模型和产品正在紧张的升级和调试阶段，尚未确定正式上线时间。内测阶段的模型已经能够生成包括自然场景、游戏画...

AIGC动态

9个月前

腾讯MLPD实验室近期提出了一种新的大模型长文本能力测试方法，名为“数星星”，旨在替代传统的“大海捞针”测试。这种新方法更注重评估模型处理长依赖关系的能力...

AIGC动态

1年前 (2024)