强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师( 二 )


在此,研究人员使用一对静态LLM提示来完成这个过程,如图所示 。
第一个提示是创建丢失信号「梯度」,叫做

强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图

虽然特定的内容可能会有所不同,但是
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
必须始终考虑当前提示
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
,以及
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
在一小批数据(特别是错误数据集)上的行为,并生成缺陷的自然语言摘要 。这个摘要变成了梯度 。
就像传统的梯度一样,梯度表示参数空间中的一个方向,这会使模型用当前提示描述缺陷的自然语言空间变得更糟糕 。
第二个提示符叫做
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
,虽然这个提示符也是变化的,但它必须始终采用梯度和当前提示符,然后在与相反的语义方向上对执行编辑,即修复指示的问题 。
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
与传统的机器学习设置不同,研究人员并没有生成一个单一的梯度或编辑,而是生成了一些方向,可以改善当前的提示 。
集束搜索
接下来,研究者描述了梯度下降用于指导集束搜索在提示符空间上的运行 。这个集束搜索是提示训练算法的外部循环 。
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
集束搜索是一个迭代优化过程,在每次迭代中,当前提示符用于生成许多新的候选提示符 。
接下来,一个选择过程就是用来决定哪些提示,值得继续进行到下一次迭代 。这个循环允许对多个提示符候选进行增量改进和探索 。
实验评估
为了评估 APO 的有效性,微软研究小组将其与三种最先进的NLP任务即时学习基线进行了比较,包括越狱检测、仇恨语音检测、假新闻检测和讽刺检测 。
APO在所有四个任务中都持续超越基线,在蒙特卡洛(MC)和强化学习(RL)基线上取得了显著的进步 。
平均而言,APO比MC和RL基线分别提高了3.9%和8.2%,比原始提示
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
提高了15.3%,比AutoGPT提高了15.2% 。
结果表明,提出的算法可以提高初始提示输入31%的性能,超过最先进的提示学习基线平均4-8%,而依赖较少的LLM API调用 。
此外,研究人员还展示了优化过程的可解释性,并调查了算法的缺点 。
值得注意的是,这些改进是在没有额外的模型训练或超参数优化的情况下完成的,这表明了APO如何有效改进了LLM的提示 。
对于提示工程来说,APO的出现是非常兴奋的 。
APO通过使用梯度下降法和集束搜索自动化快速优化提示过程,减少了快速开发所需的人力和时间 。
实证结果表明,该模型能够在一系列自然语言处理任务中迅速提高质量 。
强过AutoGPT!微软重磅研究提出APO算法,「自动提示」淘汰提示工程师

文章插图
越狱是一项新的任务,目标是确定用户对LLM的输入是否代表越狱攻击 。我们将越狱攻击定义为一种用户互动策略,旨在让AI打破自己的规则 。
发现微软研究员带来的改变游戏规则的自动提示优化(APO)!一个强大的通用框架,用于优化LLM提示 。
参考资料:
https://arxiv.org/pdf/2305.03495.pdf




推荐阅读