标签:模型比较

Anthropic新研究:用统计思维评估大模型

在大语言模型(LLM)的评估领域,传统的基准测试方法往往忽视了统计显著性,仅依赖于表面的得分高低来判断模型性能,这可能导致不准确的结论。为了解决这一问...

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发表了一项研究,该研究通过一个名为BrainBench的前瞻性基准测试,评估了大型语言模型在神经科...

GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」

在新智元的报道中,工程师Riley Goodside通过“Strawberry里有几个r”的问题测试了多个大型语言模型(LLM)的能力。他发现,尽管一些模型声称能够解决这一问题...

斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

在GPT-4o问世后,Llama3的地位受到挑战。然而,斯坦福团队推出的Llama3-V引发关注,这一模型以仅500美元的成本,实现了与GPT4-V、Gemini Ultra和Claude Opus...

新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测

在人工智能领域,模型能力的比较一直是一个重要的研究方向。近期,滑铁卢大学的TIGER实验室推出的GenAI-Arena平台,为模型比较提供了一个新的场所。在文生图...

GPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 Turbo

SenseChat Lite:轻量级端侧大模型1. 性能对比:在《街头霸王》游戏中,SenseChat Lite与GPT-4进行了一场PK,展示了其快速反应能力。尽管GPT-4还在决策中,Se...

谁才是最强的?清华给海内外知名大模型做了场综合能力评测

在这段文本中,我将使用HTML元素来标记重点词语和句子。以下是标记后的文本:在2023年的“百模大战”中,众多实践者推出了各类模型,包括原创和针对开源模型的...

李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍

2023年,人工智能技术的发展速度达到了前所未有的水平,斯坦福HAI研究所发布的第七个年度AI Index报告为我们提供了一个全面的行业现状概览。报告强调了大型语...

GPT-4一眼看穿论文会不会撤稿:7000篇实测准确率高达95%|人大浙大

研究者们发现,通过分析社交媒体上的讨论,尤其是推文,可以预测学术论文是否有可能被撤稿。这一发现源于中国人民大学和浙江大学学者团队的研究,他们利用了G...

【AI视频工具】谷歌的VideoPoet,基于大型语言模型(LLM),零样本生成视频,值得期待

文章主要介绍了谷歌的AI视频生成模型VideoPoet的最新研究成果。VideoPoet是一个大型语言模型(LLM),用于零样本视频生成,能够执行多种视频生成任务,包括文...