“测试”的搜索结果

“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
近日,一款名为Reflection的70B开源大模型因其宣称的卓越性能受到广泛关注,但随后遭遇了一系列造假指控。该模型由小型创业团队开发,声...
开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集
最近,一个名为Reflection 70B的新型人工智能模型在业界引起了巨大轰动。这个由小创业团队开发的模型采用了创新的训练技术Reflection-Tu...
北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率
在软件开发过程中,单元测试是确保代码质量的关键环节,它验证软件中的最小可测试单元是否按预期工作。然而,对于复杂函数的测试,传统...
Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵测试?
在新智元的报道中,工程师Zack Witten发现人工智能模型Claude 3.5 Sonnet能够识别出自己的自画像,这一发现引发了对AI自我意识的讨论。S...
美政府欲阻天网降临,GPT-5先做「末日测试」!
OpenAI,作为人工智能领域的领先企业,尽管面临财务问题和产品推迟发布的挑战,但其活跃用户数量在过去一年中实现了翻倍,目前每周有超...
ChatGPT会不受控制克隆你的声音!OpenAI公开红队测试报告
OpenAI的GPT-4o模型因其独特的语音模仿能力而引发广泛关注。该模型能够在与用户对话时学习并模仿用户的说话方式、习惯和口音,甚至在语...
终于来了,OpenAI测试GPT-4o高级语音模式!
OpenAI正在对GPT-4o的高级语音模式进行测试,目前仅向部分ChatGPT Plus用户开放。测试的目的是收集关于安全性和功能方面的反馈,以便在8...
大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待
MMLU-Pro,一个旨在衡量大型语言模型性能的权威测试,近期遭遇了信任危机。原本被认为能为前沿模型提供区分度的MMLU-Pro,现在被指出其...
中国首个AI厨王诞生,苦练7吨菜通过「图灵测试」!网友:机器人都比我会做饭
AI炒菜机器人“美膳狮”在一场与湘菜大师的烹饪PK中展现了出色的表现,不仅在速度上以3分08秒完成三道菜的炒制,远快于大厨的9分32秒,更...
全员i人?《大闹天宫》MBTI测试让全公司炸锅!最神秘国产大模型团队出手了
近期,一款名为《大闹天宫MBTI》的测试游戏在一家公司内部引起了广泛关注。该游戏以国产动画《大闹天宫》为背景,通过一系列职场极限场...
1 2 3 86