From 3761e81052be971e68a1efcc932f78d8b180207b Mon Sep 17 00:00:00 2001 From: zhangpeng1 Date: Thu, 9 May 2024 17:39:04 +0800 Subject: [PATCH] fix zh typo --- pages/techniques/tot.zh.mdx | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pages/techniques/tot.zh.mdx b/pages/techniques/tot.zh.mdx index 731fdd6a4..47e93d3af 100644 --- a/pages/techniques/tot.zh.mdx +++ b/pages/techniques/tot.zh.mdx @@ -29,7 +29,7 @@ ToT 完成算 24 的游戏任务要执行广度优先搜索(BFS),每步思 [这里](https://github.com/princeton-nlp/tree-of-thought-llm)还有[这里](https://github.com/jieyilong/tree-of-thought-puzzle-solver)可以找到代码例子。 -从大方向上来看,[Yao et el. (2023)](https://arxiv.org/abs/2305.10601) 和 [Long (2023)](https://arxiv.org/abs/2305.08291) 的核心思路是类似的。两种方法都是以多轮对话搜索树的形式来增强 LLM 解决复杂问题的能力。主要区别在于 [Yao et el. (2023)](https://arxiv.org/abs/2305.10601) 采用了深度优先(DFS)/广度优先(BFS)/集束(beam)搜索,而 [Long (2023)](https://arxiv.org/abs/2305.08291) 则提出由强化学习(Reinforcement Learning)训练出的 “ToT 控制器”(ToT Controller)来驱动树的搜索策略(宝库什么时候回退和搜索到哪一级回退等等)。深度优先/广度优先/集束搜索是通用搜索策略,并不针对具体问题。相比之下,由强化学习训练出的 ToT 控制器有可能从新的数据集学习,或是在自对弈(AlphaGo vs. 蛮力搜索)的过程中学习。因此,即使采用的是冻结的 LLM,基于强化学习构建的 ToT 系统仍然可以不断进化,学习新的知识。 +从大方向上来看,[Yao et el. (2023)](https://arxiv.org/abs/2305.10601) 和 [Long (2023)](https://arxiv.org/abs/2305.08291) 的核心思路是类似的。两种方法都是以多轮对话搜索树的形式来增强 LLM 解决复杂问题的能力。主要区别在于 [Yao et el. (2023)](https://arxiv.org/abs/2305.10601) 采用了深度优先(DFS)/广度优先(BFS)/集束(beam)搜索,而 [Long (2023)](https://arxiv.org/abs/2305.08291) 则提出由强化学习(Reinforcement Learning)训练出的 “ToT 控制器”(ToT Controller)来驱动树的搜索策略(包括什么时候回退和搜索到哪一级回退等等)。深度优先/广度优先/集束搜索是通用搜索策略,并不针对具体问题。相比之下,由强化学习训练出的 ToT 控制器有可能从新的数据集学习,或是在自对弈(AlphaGo vs. 蛮力搜索)的过程中学习。因此,即使采用的是冻结的 LLM,基于强化学习构建的 ToT 系统仍然可以不断进化,学习新的知识。 [Hulbert (2023)](https://github.com/dave1010/tree-of-thought-prompting) 提出了思维树(ToT)提示法,将 ToT 框架的主要概念概括成了一段简短的提示词,指导 LLM 在一次提示中对中间思维做出评估。ToT 提示词的例子如下: