模型评估 | 第 2 页

刚刚，OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？

OpenAI和谷歌在人工智能领域的竞争并未如外界预期那样激烈。OpenAI发布了一系列指标，作为其安全开发和部署前沿模型的方法的一部分，这些指标用于评估和预测...

AIGC动态

1年前 (2024)

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

张天宇在其研究中提出了一种名为视觉字幕恢复（Visual Caption Restoration, VCR）的新任务，旨在探究视觉语言模型（Vision-Language Models, VLM）的推理能...

AIGC动态

1年前 (2024)

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

LeCun和谢赛宁团队近日推出了Cambrian-1，一种采用以视觉为中心方法设计的多模态大语言模型（MLLM），并全面开源了模型权重、代码、数据集以及详细的指令微调...

AIGC动态

1年前 (2024)

ACM最新论文戳破大公司「开源」谎言，GenAI时代到底如何定义「开源模型」

在AI时代，开源的定义变得模糊不清。传统软件中的开源概念，如Linux和Windows的对比，已经不再适用于AI模型。Open Source Initiative（OSI）指出，传统的开源...

AIGC动态

1年前 (2024)

GPT-4系列模型，在文档理解中的多维度评测

Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究，评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideV...

AIGC动态

1年前 (2024)

刺激！扣子模型广场上线，实时 PK 高下立见

扣子模型广场的推出为用户在选择国内主流大语言模型时提供了一种全新的评估方式。该平台借鉴了国际开放研究组织LMSYS Org的大模型竞技场Chatbot Arena的匿名...

AIGC动态

1年前 (2024)

27岁华裔天才少年对打UC伯克利，首发SEAL大模型排行榜！Claude 3 Opus数学封神

SEAL排行榜是一个全新的大模型评估平台，由Scale AI团队推出，得到AI领域知名人士的认可。该排行榜的特色在于使用私有数据集，确保评估公正性；定期更新数据...

AIGC动态

1年前 (2024)

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

背景介绍：- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出：- 许多研究使用GSM8k、MATH等测试集作为基准，但这些测试集可能受到训练数据集的污...

AIGC动态

1年前 (2024)

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

Anthropic最近发布的研究成果表明，他们开发的人工智能模型Claude 3 Opus在说服力方面与人类相当。这一发现对于评估语言模型的说服力具有重要意义，因为说服...

AIGC动态

1年前 (2024)

AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

新智元最近报道了一项针对人工智能模型的数学竞赛，这场比赛吸引了广泛关注，因为它提供了高达104.8万美元的奖金。参赛的AI模型需要在50个数学题中至少解出3...

AIGC动态

1年前 (2024)

标签：模型评估

刚刚，OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

ACM最新论文戳破大公司「开源」谎言，GenAI时代到底如何定义「开源模型」

GPT-4系列模型，在文档理解中的多维度评测

刺激！扣子模型广场上线，实时 PK 高下立见

27岁华裔天才少年对打UC伯克利，首发SEAL大模型排行榜！Claude 3 Opus数学封神

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

AI | MO数学竞赛启动，陶哲轩力荐！50题对3道，百万大奖抱回家

热门网址

标签：模型评估

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址