OpenAI 的 Q没见过，一众创业公司的 Q来了

AIGC动态1年前 (2024)发布 geekpark

974 0 0

文章摘要

去年，OpenAI的研究人员向董事会发出联名信，指出代号为Q*的神秘项目可能会威胁全人类。尽管Q*项目尚未公开，但其传言一直存在。谷歌DeepMind资深工程师卢一峰曾猜测，Q*可能具备类似人类“慢思考”的能力，即在不确定时能够上网、翻书、做实验、讨论等，以提高推理能力。

目前，AI助手类App的回答质量已有所提升，各大厂商正努力让模型增加思考和推理能力。The Information记者Stephanie Palazzolo在其文章中探讨了现有创业公司提升模型推理能力的模式。一些创业公司和个人已找到“便宜的”方法来实现AI在某些形式的推理能力，如将复杂问题分解为简单步骤，并通过额外提问帮助模型分析。例如，AI应用在起草博客文章时会自动触发额外查询，评估答案并提出改进意见。这个过程被称为“反思”，可带来更好的结果。

另一种方法是抽样技术，通过多次提问并选择最佳答案来提高创造性和随机答案的能力。例如，编程助手App可能就同一问题让大模型给出100种答案，然后选择正确且简洁的代码。Meta在其Llama 3论文中也强调了类似技术。然而，这种方法成本高昂且速度慢。

为解决这一问题，开发者尝试选取表现出良好推理能力的模型示例，并将它们“喂”回模型的训练数据集中。这类似于学生学习乘法表，随着时间推移，答案成为直觉的一部分。要开发这种AI，开发者需要对大模型进行控制，更可能使用开放权重模型。

中国的开发者和研究人员也掌握了这些技术。Skywork AI和南洋理工大学研究人员发表的论文中，将这项技术命名为Q*，以纪念他们从未见过的OpenAI版本。中国的Q*技术通过搜索大模型在每一步中的最佳下一步来解决多步骤问题。这是通过Q值模型实现的，帮助大模型估计每个可能的下一步的未来回报。

智能体创业公司Minion AI的CEO亚历克斯·格雷夫利表示，他们还在尝试教大语言模型在出错时回退到前一步。斯坦福大学和Notbad AI发表的“Quiet-STaR”论文解释了如何教会大语言模型生成关于它们在复杂推理问题中的内部“思考”步骤，以做出更好的决策。

尽管OpenAI的Q*/Strawberry技术可能已领先一步，但其他公司和研究机构正竞相追赶，探索提升AI推理能力的新方法。