Skip to main content

PlanGEN:生成规划和推理轨迹的多智能体框架

· 3 min read
75HpF1

Overview

  1. 问题背景:当前的大模型出色完成了许多推理任务。但它们在解决复杂规划问题的时候通常暴露出一些缺陷。例如不能考虑到具体约束条件、缺乏完善的计划评价体系、应用单一推理算法处理所有情况,进而导致这类任务的表现不佳。
  2. 解决思路:论文中希望构建一个 multi-agent 框架,通过多智能体的协作解决上述提到的几个问题。首先是不同现实任务场景下受到的限制都不同(比如在安排会议的时候要考虑各方公共的空闲时间,回答问题的时候要考虑回答准确率),所以应该设置一个用于在具体场景产生限制条件的智能体;其二是构建精确的评价智能体;其三是我们希望将推理深度以及广度不同的算法应用到不同的具体任务中,以实现效率最大化。
  3. 整体框架
    1. 给问题,让大模型输出方案
    2. constraint agent 产生约束条件
    3. verification agent 基于约束条件给当前方案打分,产生反馈
    4. selection agent 对当前情况下不同推理算法打分,选最合适的算法
    5. 应用算法更新方案再次循环到 ③ 打分
    6. 直到分数超过设定阈值
    7. 生成方案,执行方案
  4. 技术细节:在 selection agent 部分,PlanGEN 让大模型结合问题阐述和上一步的反馈给定算法优先级(Best-N,ToT,REBASE),再代入 UCB 准则进行最终分数计算。
  5. 实验:文章用了 NATURAL PLAN(常见计划)、GPQA(长难推导)、OlympiadBench(数理逻辑)、DocFinQA(金融专业)作为数据集,用 Gemini-1.5-pro 嵌入,比较了 SOTA 模型、Multi-agent 的 benchmark、PlanGEN 与不同算法 mixture 的效果。发现越是专业、复杂的计划问题,PlanGEN-mixture 越占优势。
  6. 未来方向:选择算法本身也要调很多次 LLM,耗资源;最近强化学习、元学习、深度思考框架与此成果能结合;多语言、多模型融入 PlanGEN 前景广阔。

Resources