标签:评测
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开
大模型竞技场(Chatbot Arena)官方团队lmarena.ai近日公开了对Llama-4-Maverick-03-26-Experimental版本的评测数据,并对其表现进行了详细分析。该模型在竞...
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
近来,GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力,引发了关于多模态大模型(MLLMs)创造力天花板的讨论。现有的评测基准难...
实测智谱AutoGLM沉思:用DeepSeek的方式干Manus的活,还全部免费?
智谱AI在OpenDay上发布了全球首个集深度研究和操作执行于一体的Agent产品——AutoGLM沉思。这款产品不仅能够进行深度思考,还能实时操作浏览器,像真人一样打开...
硅基流动:关于 DeepSeek-R1 API 的评测,至少有 7 个误区
随着硅基流动等平台上线DeepSeek-R1,市面上出现了大量关于API服务的评测文章,但这些评测往往存在诸多误区,导致结论不一致甚至相互矛盾。评测API服务时,测...
我花了2天,找到了我觉得翻译质量最好的AI大模型。
在AI自媒体的领域中,阅读前沿学术论文是提升知识体系的重要途径。然而,对于英语水平有限的从业者来说,即便借助大模型翻译工具,阅读英文文献仍然充满挑战...
DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路
GRPO训练作为一种基于PPO算法的改进方法,近年来在强化学习领域引起了广泛关注。GRPO通过采样替代value model的方式,简化了训练过程,提升了稳定性和可维护...
英伟达RTX 5070评测解禁:老黄承诺4090级性能?不存在的
英伟达最新发布的GeForce RTX 5070显卡在性能、功耗和价格等方面引发了广泛讨论。尽管英伟达CEO黄仁勋曾表示,这款显卡将凭借AI技术以三分之一的价格达到RTX ...
“老黄骗人”!5070首批评测:说好1/3价格赛4090,实际不如4070Ti
RTX 5070显卡自发布以来,引发了广泛讨论和评测,但结果并不如预期。尽管英伟达CEO黄仁勋在CES上宣称,RTX 5070凭借AI技术,能够以549美元的价格实现与RTX 40...
Meta与OpenAI文生图工具评测-下
这篇文章主要是对两款文生图AI工具Imagine with Meta和DALL-E3生成的图片进行了详细的评测。评测过程中,使用了GPT4来完成评测,通过专业的软件评测师对绘图...