实测 | GPT-o1：学会了思考，也学会了偷懒

1,441 0 0

文章摘要

在对OpenAI最新模型GPT-o1的测试中，作者林杰鑫通过一系列精心设计的题目来评估其在数学、物理和生物领域的综合逻辑思考能力。这些题目包括计算全球人类心算能力的总和、家用打印机印制美元的潜在影响、人类集体跳跃对地球的影响、利用机枪后坐力制造飞行背包的可能性，以及地球突然停止自转的连锁反应。

在数学测试中，GPT-o1快速得出结论，全球人类心算的总和大约为8 GFLOPS，这一算力略高于2010年发布的iPhone 4的A4芯片。对于家用打印机印制美元的问题，GPT-o1考虑到了打印机的打印速度和纸张大小，估算出每天能印制的美元数量，并分析了这可能对市场造成的影响。

在物理测试中，GPT-o1对于人类集体跳跃的问题给出了详细的分析，指出这种活动对地球的影响微乎其微。然而，在探讨利用机枪后坐力制造飞行背包的问题时，GPT-o1虽然理解了问题的核心，但在计算过程中出现了递归难题，未能给出完美的解决方案。对于地球停止自转的极端情况，GPT-o1能够迅速识别出将会产生超音速狂风，但对于一些细节的计算和解释，如昼夜温差的具体数据，GPT-o1的回答显得较为简洁，不如Claude 3.5 Sonnet详尽。

在生物测试中，GPT-o1对于人体内DNA瞬间消失的后果进行了分析，指出这将导致遗传信息丢失、蛋白质合成中断等一系列严重后果，最终导致死亡。

总体而言，GPT-o1在处理中等复杂度的问题时表现出色，但在面对更复杂的问题时，其回答的深度和广度有所下降。作者指出，尽管GPT-o1在某些领域可能取得了突破，但在实际应用中，用户可能需要通过优化提示词来提高其回答质量。对于是否值得升级到GPT-o1，作者建议普通用户应先评估其在特定场景下的表现，而不是盲目追求最新技术。