“测试”的搜索结果

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
在OpenAI发布GPT-4o后,外界评价从最初失望迅速转变为惊艳。在多项基准测试中,GPT-4o展现出了SOTA(当前最佳)的实力。在LMSys聊天机器...
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
在最近的一项研究中,来自加州大学圣地亚哥分校(UCSD)的认知科学研究团队进行了一项实证研究,测试了大型语言模型GPT-4是否能在图灵测...
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试
微软近期发布了一款新的大型语言模型WizardLM-2,该模型被宣称具有与GPT-4相媲美的性能。然而,令人意外的是,这个模型在上线几小时后就...
新测试基准发布,最强开源Llama 3尴尬了
文章介绍了一个名为Arena-Hard的新基准测试,旨在提供更难、更有区分度的测试,以区分不同AI模型的表现。该测试利用竞技场实时人类数据...
微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试
```html微软近期发布并迅速下架了其最新的开源大模型WizardLM-2,原因是在发布前忘记进行了关键的“毒性测试”。WizardLM-2模型提供了三个...
Sora 平替出现了!字节 Dreamina 开放测试,申请就给用|AI 鲜测
Dreamina是字节旗下的视频生成AI,最近开始大规模开放测试。与Sora相比,Dreamina最大的优势在于它真的可以使用。虽然有人认为Dreamina...
大模型融合!最新「进化算法」全自动组合开源模型,刷榜多项基准测试
Sakana AI团队开发了一种新方法,能够自动组合不同的开源模型,创造出具有新能力的AI系统。这种方法基于集体智慧的概念,即未来的人工智...
阿里刚开源32B大模型,我们立马测试了“弱智吧”
阿里巴巴开源新模型阿里巴巴近期开源了其最新的人工智能模型“通义千问”(Qwen)1.5-32B版本,这是1.5系列的最后一块拼图。该模型在多项...
GPT-5红队测试邮件曝光,最早6月发布?网友在线逼问Altman,数十亿美元超算26年启动
新智元报道了关于OpenAI即将发布的GPT-5的最新动态。据报道,OpenAI已经向一些用户发送了红队测试的邀请邮件,这表明GPT-5可能已经进入...
弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
近期,一项颇为不同寻常的研究引起了广泛关注。研究者们发现,使用百度贴吧中的“弱智吧”数据训练的AI模型,在多项性能测试中取得了出色...
1 2 3 4 5 87