清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

2024/1/9 10:06:38　阅读：317　发布者：

以下文章来源于清华大学交叉信息研究院，作者茶园

图 |基于论文标题使用DALL-E2制作

引言

“人只不过是一根苇草，是自然界最脆弱的东西，但他是一根能思想的苇草，”帕斯卡尔《思想录》中如是说。人类思维模式一直是大语言模型（LLMs）研究领域探索的关键，以提升计算机提供“深思熟虑”且“准确”答案的频率。但受制于对思维中间结果的处理，现有模型在解决困难逻辑推理任务时的准确率仍然较低。

近期，姚期智和袁洋领衔的课题组在传统思维链（CoT）和思维树（ToT）的基础上，提出一种“累积推理（Cumulative Reasoning）”框架，显著提升了LLMs解决复杂推理任务的准确度，特别是在逻辑推理和24点难题上实现了高达98%的准确率，在数学难题上（MATH Level 5）实现了42% 的准确率相对提升。

论文链接

https://arxiv.org/abs/2308.04371

Github

https://github.com/iiis-ai/cumulative-reasoning

大模型模仿人类认知过程的挑战

尽管大语言模型（LLMs）已取得显著进步，但在面对高度复杂的推理任务时，它们仍难以提供稳定和准确的答案。

“卡尼曼曾在《思考，快与慢》中分析，人类的认知处理过程包括两个系统：System 1是快速、本能和情感化的；System 2是缓慢、深思熟虑和逻辑的。目前，LLMs与System 1更为接近，这可能就解释了大模型在应对复杂任务方面的局限性，”本篇论文共同第一作者张伊凡解释说。

为突破这一局限性，许多学者已提出几种模仿人类“深思熟虑”且“逻辑性”的思维框架。其中包括提供分步式解决方案的“思维链（Chain of Thought, CoT）”和提供树状检索方案的“思维树（Tree of Thought, ToT）”。

“但这些方法均未设置思维过程中间结果的储存位置，导致大模型不能完全捕捉到人类的复杂思维过程，”共同第一作者杨景钦说，“为弥补这一研究空缺，我们提出了一种‘累计推理（Cumulative Reasoning, CR）’框架，该方法提供了对思维过程更一般性的建模。”

“累积推理”框架的提出

“累计推理”利用三个不同的LLMs来解决复杂推理问题，包括提议者 (Proposer)、验证者 (Verifier) 和报告者 (Reporter)。其中，

(1) 提议者：根据思维上下文 (thinking context)，不断提出潜在的新命题；

(2) 验证者：核查提议者提出步骤的准确性。如果该步骤被认为是正确的，它将被添加到思维上下文中；

(3) 报告者：通过判断当前条件，决定推理过程何时应该结束，从而避免受限于不可判定问题(undecidability)。

图：累积推理框架用于解决含三个前提的问题

解题过程中，提议者基于现有前提 (premises) 和命题 (propositions) 提出一个或几个提案来启动该过程。随后，验证者评估该提案，确定该提案是否可以作为新的命题保留。最后，报告者决定是否是终止思考过程并提供最终答案的最佳时机。

三项实验检验

课题组选择了FOLIO wiki和AutoTNLI、24点游戏、MATH数据集，对CR框架进行检验。

Experiment 1

第一个实验聚焦类似FOLIO wiki（与一阶逻辑有关的推理任务）和AutoTNLI（与高阶逻辑有关的推理任务，包含时序逻辑、数学计算、常识推断等）。这两个数据集的任务与CR框架非常契合，都是在给出一系列前提（premises）下，询问某个命题（proposition）是否成立，这使得CR框架能直接应用于这两个数据集上。

1.1 Logical Inference on FOLIO dataset

(First-order)

1.2 Logical Inference on AutoTNLI dataset

(Higher-order)

如图所示，相较于已有方法， CR框架在各种情况下都显著提升了结果正确率。

Experiment 2

Game of 24

在24点实验中，CR算法会维护一个全局状态S，S中包含了所有已经被找到的可能通往答案的“局面”。初始时S只包含一个“局面”，即输入的四个数。Proposer每次在全局状态S中随机选择一个“局面”u,，从u出发生成一个新的局面v。Verifier对v进行验证，并根据验证结果（sure / likely/ impossible）进行相应操作。当Verifier找到一个一定能到达24的局面t时（即对t的验证结果为sure），交由reporter生成最后的答案并输出。

将CR框架运用于"24点"的演示视频

实验发现，即使是单次运行(b=1)的设定下，CR也能达到84%的高正确率。而随着b的增大，CR的正确率甚至能达到98%。同时，CR的“平均访问局面数”远低于已有方法，这说明从搜索过程来看，CR不仅有着更高的搜索正确率，也有着更高的搜索效率。

注：CR算法和ToT算法看起来类似，但有两点根本不同：

1. CR每次只基于当前的状态尝试一小步，而ToT会产生十多个步骤，然后选择其中最好的个推进。因此，CR可以进行更细粒度的搜索。

2. CR把所有的中间状态都保留下来，会动态决定搜索的宽度和深度；而ToT只记录了当前已搜索出的最优解，并没有完整记录之前的探索过程。

Experiment 3

Mathematical Reasoning on MATH dataset

第三个实验中，MATH数据集包含大量数学推理题目。其中，题目难度分为五级，题目考点包含代数、几何、数论等。解题时，CR框架辅助将题目拆解为大模型能较好完成的分步骤。例如，对于“求解斐波那契数列的第10项”这一问题，CR中的Proposer会提出诸如“斐波那契数列的定义是什么？”等子问题，并自问自答，直到产生答案。

实验结果表明，CR算法在两种不同的实验设定下，均达到了超出当前已有算法的正确率。其中CR总体正确率可达58%，并在Level 5的难题中实现了42%的相对准确率提升，建立了GPT-4模型下的新SOTA。

总结与展望

“借由累积和迭代的方式模拟人类思维过程，让大模型更聪明”，CR框架不仅被证明可以在逻辑推理任务中实现更高的准确率，也为人工智能领域带来了新的启示和可能性。

课题组成员张伊凡在访谈中表示：“随着这种‘步步为营’的方法不断完善，在解决复杂的数学与科学问题上，人类有望迎来能够独立完成研究的 ‘AI Mathematician（人工智能数学家）’。" 但研究者承认，这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”、“如何增加思考上下文的长度，以处理更加复杂的问题”等挑战。你如何看待AI Scientist的未来呢？

科研团队介绍

本论文来自清华交叉信息院姚期智和袁洋领衔的AI for Math课题组。论文共同第一作者为交叉信息院2021级博士生张伊凡、杨景钦，指导老师及共同通讯作者为袁洋助理教授、姚期智院士。

转自：“创新清华”微信公众号

如有侵权，请联系本站删除！

投稿问答最小化 关闭

清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭