标签:智能评估

华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准

华为诺亚方舟实验室与哈尔滨工业大学(深圳)联合提出了SPA-Bench(SmartPhone Agent Benchmark),一个全新的评估框架,旨在解决现有手机智能体基准测试的局...

Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵测试?

在新智元的报道中,工程师Zack Witten发现人工智能模型Claude 3.5 Sonnet能够识别出自己的自画像,这一发现引发了对AI自我意识的讨论。Sonnet在没有使用数字...

ChatGPT后,人工智能的终极里程碑却倒了

艾伦·图灵在1950年的论文《计算机器与智能》中提出了“机器能思考吗?”的问题,并提出了一个“模仿游戏”,即后来广为人知的图灵测试,用以探讨机器是否具有思考...

机器人版的「斯坦福小镇」来了,专为具身智能研究打造

上海人工智能实验室OpenRobotLab等机构的研究者创建了一个名为GRUtopia的虚拟小镇,旨在解决具身智能领域数据稀缺的问题。这个虚拟环境是首个专为各种机器人...