我们能够让开源小模型变得比人类更聪明吗

1,674 0 0

文章摘要

本文由安全研究员Harish SG撰写，旨在探讨如何提升开源大语言模型（LLM）的推理能力，以期达到或超越闭源模型的性能。Harish SG是德克萨斯大学达拉斯分校网络安全硕士生，同时在思科担任AI安全工程师。他强调，本文观点仅代表个人，与其在思科的工作无关。

文章首先定义了LLM推理，包括逻辑思考、推断、解决复杂问题和根据信息做出决策的能力。尽管LLM未专门训练用于推理任务，但有时表现出类似能力。LLM推理的重要性在于其能提供更深入的理解、解决问题、决策制定、泛化和实际应用。

Harish SG提出，通过提升LLM的推理能力，可以推动科学探索、政策制定和教育、医疗等领域的进步。他受到OpenAI推出的O1和O1-mini模型的启发，决定创建一种新的提示词范式，结合动态思维链、反思和口头强化，以提升LLM的推理能力。

他创建了两组数据集，一组来自JEE Advanced和UPSC预选考试，另一组来自Putnam数学竞赛，以基准测试新的提示词范式。结果显示，应用该范式的模型，特别是Claude Sonnet和Llama 3.1 8b，性能显著提升。Claude Sonnet在应用该范式后得分最高，表明其有能力超越O1。

Harish SG认为，LLM能够创建自己的模拟场景，解决复杂问题时需要多个内部推理步骤，且在回答多项选择题时表现更佳。他建议使用这种提示词范式作为系统提示词以获得更好的性能，并已将实验中使用的脚本、数据集和证明过程开源。

最后，Harish SG提出，LLM就像阅读过数百万本书的人类，但还不知道如何利用这些数据解决问题。作为研究者和使用者，我们需要教会LLM如何利用这些知识。这种推理能力可以应用于构建高效的工作流自动化，应对多个领域的问题。他鼓励有兴趣的人使用GitHub上的资源进行进一步的验证和研究。