“测试”的搜索结果

在OpenAI发布GPT-4o后，外界评价从最初失望迅速转变为惊艳。在多项基准测试中，GPT-4o展现出了SOTA（当前最佳）的实力。在LMSys聊天机器...

AIGC动态

4个月前

在最近的一项研究中，来自加州大学圣地亚哥分校（UCSD）的认知科学研究团队进行了一项实证研究，测试了大型语言模型GPT-4是否能在图灵测...

AIGC动态

4个月前

微软近期发布了一款新的大型语言模型WizardLM-2，该模型被宣称具有与GPT-4相媲美的性能。然而，令人意外的是，这个模型在上线几小时后就...

AIGC动态

5个月前

文章介绍了一个名为Arena-Hard的新基准测试，旨在提供更难、更有区分度的测试，以区分不同AI模型的表现。该测试利用竞技场实时人类数据...

AIGC动态

5个月前

```html微软近期发布并迅速下架了其最新的开源大模型WizardLM-2，原因是在发布前忘记进行了关键的“毒性测试”。WizardLM-2模型提供了三个...

AIGC动态

5个月前

Dreamina是字节旗下的视频生成AI，最近开始大规模开放测试。与Sora相比，Dreamina最大的优势在于它真的可以使用。虽然有人认为Dreamina...

AIGC动态

5个月前

Sakana AI团队开发了一种新方法，能够自动组合不同的开源模型，创造出具有新能力的AI系统。这种方法基于集体智慧的概念，即未来的人工智...

AIGC动态

5个月前

阿里巴巴开源新模型阿里巴巴近期开源了其最新的人工智能模型“通义千问”（Qwen）1.5-32B版本，这是1.5系列的最后一块拼图。该模型在多项...

AIGC动态

5个月前

新智元报道了关于OpenAI即将发布的GPT-5的最新动态。据报道，OpenAI已经向一些用户发送了红队测试的邀请邮件，这表明GPT-5可能已经进入...

AIGC动态

6个月前

近期，一项颇为不同寻常的研究引起了广泛关注。研究者们发现，使用百度贴吧中的“弱智吧”数据训练的AI模型，在多项性能测试中取得了出色...

AIGC动态

6个月前