标签:模型评估

Claude 3说服力堪比人类!Anthropic最新研究揭秘LLM惊人能力

Anthropic最近发布的研究成果表明,他们开发的人工智能模型Claude 3 Opus在说服力方面与人类相当。这一发现对于评估语言模型的说服力具有重要意义,因为说服...

AI | MO数学竞赛启动,陶哲轩力荐!50题对3道,百万大奖抱回家

新智元最近报道了一项针对人工智能模型的数学竞赛,这场比赛吸引了广泛关注,因为它提供了高达104.8万美元的奖金。参赛的AI模型需要在50个数学题中至少解出3...

讨论下一个token预测时,我们可能正在走进陷阱

机器之心报道,编辑赵阳,最近围绕下一个token预测的讨论日益激烈。然而,许多人认为,下一个token预测的目标无法真正模拟人类思维。人类在执行计划之前会在...
1 2