以下文章来源于清华大学交叉信息研究院 ,作者茶园
图 |基于论文标题使用DALL-E2制作
引言
“人只不过是一根苇草,是自然界最脆弱的东西,但他是一根能思想的苇草,”帕斯卡尔《思想录》中如是说。人类思维模式一直是大语言模型(LLMs)研究领域探索的关键,以提升计算机提供“深思熟虑”且“准确”答案的频率。但受制于对思维中间结果的处理,现有模型在解决困难逻辑推理任务时的准确率仍然较低。
近期,姚期智和袁洋领衔的课题组在传统思维链(CoT)和思维树(ToT)的基础上,提出一种“累积推理(Cumulative Reasoning)”框架,显著提升了LLMs解决复杂推理任务的准确度,特别是在逻辑推理和24点难题上实现了高达98%的准确率,在数学难题上(MATH Level 5)实现了42% 的准确率相对提升。
论文链接
https://arxiv.org/abs/2308.04371
Github
https://github.com/iiis-ai/cumulative-reasoning
大模型模仿人类认知过程的挑战
01
尽管大语言模型(LLMs)已取得显著进步,但在面对高度复杂的推理任务时,它们仍难以提供稳定和准确的答案。
“卡尼曼曾在《思考,快与慢》中分析,人类的认知处理过程包括两个系统:System 1是快速、本能和情感化的;System 2是缓慢、深思熟虑和逻辑的。目前,LLMs与System 1更为接近,这可能就解释了大模型在应对复杂任务方面的局限性,”本篇论文共同第一作者张伊凡解释说。
为突破这一局限性,许多学者已提出几种模仿人类“深思熟虑”且“逻辑性”的思维框架。其中包括提供分步式解决方案的“思维链(Chain of Thought, CoT)”和提供树状检索方案的“思维树(Tree of Thought, ToT)”。
“但这些方法均未设置思维过程中间结果的储存位置,导致大模型不能完全捕捉到人类的复杂思维过程,”共同第一作者杨景钦说,“为弥补这一研究空缺,我们提出了一种‘累计推理(Cumulative Reasoning, CR)’框架,该方法提供了对思维过程更一般性的建模。”
“累积推理”框架的提出
02
“累计推理”利用三个不同的LLMs来解决复杂推理问题,包括提议者 (Proposer)、验证者 (Verifier) 和报告者 (Reporter)。其中,
(1) 提议者:根据思维上下文 (thinking context),不断提出潜在的新命题;
(2) 验证者:核查提议者提出步骤的准确性。如果该步骤被认为是正确的,它将被添加到思维上下文中;
(3) 报告者:通过判断当前条件,决定推理过程何时应该结束,从而避免受限于不可判定问题(undecidability)。
图:累积推理框架用于解决含三个前提的问题
解题过程中,提议者基于现有前提 (premises) 和命题 (propositions) 提出一个或几个提案来启动该过程。随后,验证者评估该提案,确定该提案是否可以作为新的命题保留。最后,报告者决定是否是终止思考过程并提供最终答案的最佳时机。
三项实验检验
03
课题组选择了FOLIO wiki和AutoTNLI、24点游戏、MATH数据集,对CR框架进行检验。
Experiment 1
第一个实验聚焦类似FOLIO wiki(与一阶逻辑有关的推理任务)和AutoTNLI(与高阶逻辑有关的推理任务,包含时序逻辑、数学计算、常识推断等)。这两个数据集的任务与CR框架非常契合,都是在给出一系列前提(premises)下,询问某个命题(proposition)是否成立,这使得CR框架能直接应用于这两个数据集上。
1.1 Logical Inference on FOLIO dataset
(First-order)
1.2 Logical Inference on AutoTNLI dataset
(Higher-order)
如图所示,相较于已有方法, CR框架在各种情况下都显著提升了结果正确率。
Experiment 2
Game of 24
在24点实验中,CR算法会维护一个全局状态S,S中包含了所有已经被找到的可能通往答案的“局面”。初始时S只包含一个“局面”,即输入的四个数。Proposer每次在全局状态S中随机选择一个“局面”u,,从u出发生成一个新的局面v。Verifier对v进行验证,并根据验证结果(sure / likely/ impossible)进行相应操作。当Verifier找到一个一定能到达24的局面t时(即对t的验证结果为sure),交由reporter生成最后的答案并输出。
将CR框架运用于"24点"的演示视频
实验发现,即使是单次运行(b=1)的设定下,CR也能达到84%的高正确率。而随着b的增大,CR的正确率甚至能达到98%。同时,CR的“平均访问局面数”远低于已有方法,这说明从搜索过程来看,CR不仅有着更高的搜索正确率,也有着更高的搜索效率。
注:CR算法和ToT算法看起来类似,但有两点根本不同:
1. CR每次只基于当前的状态尝试一小步,而ToT会产生十多个步骤,然后选择其中最好的个推进。因此,CR可以进行更细粒度的搜索。
2. CR把所有的中间状态都保留下来,会动态决定搜索的宽度和深度;而ToT只记录了当前已搜索出的最优解,并没有完整记录之前的探索过程。
Experiment 3
Mathematical Reasoning on MATH dataset
第三个实验中,MATH数据集包含大量数学推理题目。其中,题目难度分为五级,题目考点包含代数、几何、数论等。解题时,CR框架辅助将题目拆解为大模型能较好完成的分步骤。例如,对于“求解斐波那契数列的第10项”这一问题,CR中的Proposer会提出诸如“斐波那契数列的定义是什么?”等子问题,并自问自答,直到产生答案。
实验结果表明,CR算法在两种不同的实验设定下,均达到了超出当前已有算法的正确率。其中CR总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,建立了GPT-4模型下的新SOTA。
总结与展望
04
“借由累积和迭代的方式模拟人类思维过程,让大模型更聪明”,CR框架不仅被证明可以在逻辑推理任务中实现更高的准确率,也为人工智能领域带来了新的启示和可能性。
课题组成员张伊凡在访谈中表示:“随着这种‘步步为营’的方法不断完善,在解决复杂的数学与科学问题上,人类有望迎来能够独立完成研究的 ‘AI Mathematician(人工智能数学家)’。" 但研究者承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”、“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。你如何看待AI Scientist的未来呢?
科研团队介绍
本论文来自清华交叉信息院姚期智和袁洋领衔的AI for Math课题组。论文共同第一作者为交叉信息院2021级博士生张伊凡、杨景钦,指导老师及共同通讯作者为袁洋助理教授、姚期智院士。
转自:“创新清华”微信公众号
如有侵权,请联系本站删除!