投稿问答最小化  关闭

万维书刊APP下载

清华大学交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架

2024/1/9 10:06:38  阅读:317 发布者:

以下文章来源于清华大学交叉信息研究院 ,作者茶园

|基于论文标题使用DALL-E2制作

引言

“人只不过是一根苇草,是自然界最脆弱的东西,但他是一根能思想的苇草,”帕斯卡尔《思想录》中如是说。人类思维模式一直是大语言模型(LLMs)研究领域探索的关键,以提升计算机提供“深思熟虑”且“准确”答案的频率。但受制于对思维中间结果的处理,现有模型在解决困难逻辑推理任务时的准确率仍然较低。

近期,姚期智和袁洋领衔的课题组在传统思维链(CoT)和思维树(ToT)的基础上,提出一种“累积推理(Cumulative Reasoning)”框架,显著提升了LLMs解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42% 的准确率相对提升。

 

论文链接

https://arxiv.org/abs/2308.04371

Github

https://github.com/iiis-ai/cumulative-reasoning

  大模型模仿人类认知过程的挑战

01

尽管大语言模型(LLMs)已取得显著进步,但在面对高度复杂的推理任务时,它们仍难以提供稳定和准确的答案。

 

“卡尼曼曾在《思考,快与慢》中分析,人类的认知处理过程包括两个系统:System 1是快速、本能和情感化的;System 2是缓慢、深思熟虑和逻辑的。目前,LLMsSystem 1更为接近,这可能就解释了大模型在应对复杂任务方面的局限性,”本篇论文共同第一作者张伊凡解释说。

 

为突破这一局限性,许多学者已提出几种模仿人类“深思熟虑”且“逻辑性”的思维框架。其中包括提供分步式解决方案的“思维链(Chain of Thought, CoT)”和提供树状检索方案的“思维树(Tree of Thought, ToT)”。

 

“但这些方法均未设置思维过程中间结果的储存位置,导致大模型不能完全捕捉到人类的复杂思维过程,”共同第一作者杨景钦说,“为弥补这一研究空缺,我们提出了一种‘累计推理(Cumulative Reasoning, CR)’框架,该方法提供了对思维过程更一般性的建模。”

“累积推理”框架的提出  

02

“累计推理”利用三个不同的LLMs来解决复杂推理问题,包括提议者 (Proposer)、验证者 (Verifier) 和报告者 (Reporter)。其中,

(1) 提议者:根据思维上下文 (thinking context),不断提出潜在的新命题;

(2) 验证者:核查提议者提出步骤的准确性。如果该步骤被认为是正确的,它将被添加到思维上下文中;

(3) 报告者:通过判断当前条件,决定推理过程何时应该结束,从而避免受限于不可判定问题(undecidability)

图:累积推理框架用于解决含三个前提的问题

解题过程中,提议者基于现有前提 (premises) 和命题 (propositions) 提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。

   三项实验检验

03

课题组选择了FOLIO wikiAutoTNLI24点游戏、MATH数据集,对CR框架进行检验。

Experiment 1

第一个实验聚焦类似FOLIO wiki(与一阶逻辑有关的推理任务)和AutoTNLI(与高阶逻辑有关的推理任务,包含时序逻辑、数学计算、常识推断等)。这两个数据集的任务与CR框架非常契合,都是在给出一系列前提(premises)下,询问某个命题(proposition)是否成立,这使得CR框架能直接应用于这两个数据集上。

1.1 Logical Inference on FOLIO dataset

(First-order)

1.2 Logical Inference on AutoTNLI dataset

(Higher-order)

如图所示,相较于已有方法, CR框架在各种情况下都显著提升了结果正确率。

Experiment 2

Game of 24

24点实验中,CR算法会维护一个全局状态SS中包含了所有已经被找到的可能通往答案的“局面”。初始时S只包含一个“局面”,即输入的四个数。Proposer每次在全局状态S中随机选择一个“局面”u,,从u出发生成一个新的局面vVerifierv进行验证,并根据验证结果(sure / likely/ impossible)进行相应操作。当Verifier找到一个一定能到达24的局面t时(即对t的验证结果为sure),交由reporter生成最后的答案并输出。

CR框架运用于"24"的演示视频

实验发现,即使是单次运行(b=1)的设定下,CR也能达到84%的高正确率。而随着b的增大,CR的正确率甚至能达到98%。同时,CR的“平均访问局面数”远低于已有方法,这说明从搜索过程来看,CR不仅有着更高的搜索正确率,也有着更高的搜索效率。

注:CR算法和ToT算法看起来类似,但有两点根本不同:

1. CR每次只基于当前的状态尝试一小步,而ToT会产生十多个步骤,然后选择其中最好的个推进。因此,CR可以进行更细粒度的搜索。

2. CR把所有的中间状态都保留下来,会动态决定搜索的宽度和深度;而ToT只记录了当前已搜索出的最优解,并没有完整记录之前的探索过程。

Experiment 3

Mathematical Reasoning on MATH dataset

第三个实验中,MATH数据集包含大量数学推理题目。其中,题目难度分为五级,题目考点包含代数、几何、数论等。解题时,CR框架辅助将题目拆解为大模型能较好完成的分步骤。例如,对于“求解斐波那契数列的第10项”这一问题,CR中的Proposer会提出诸如“斐波那契数列的定义是什么?”等子问题,并自问自答,直到产生答案。

实验结果表明,CR算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中CR总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA

      总结与展望        

04

“借由累积和迭代的方式模拟人类思维过程,让大模型更聪明”,CR框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。

课题组成员张伊凡在访谈中表示:“随着这种‘步步为营’的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的 ‘AI Mathematician(人工智能数学家)’。" 但研究者承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”、“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。你如何看待AI Scientist的未来呢?

科研团队介绍

本论文来自清华交叉信息院姚期智和袁洋领衔的AI for Math课题组。论文共同第一作者为交叉信息院2021级博士生张伊凡、杨景钦,指导老师及共同通讯作者为袁洋助理教授、姚期智院士。

转自:“创新清华”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com