在此,研究人员使用一对静态LLM提示来完成这个过程,如图所示 。
第一个提示是创建丢失信号「梯度」,叫做

文章插图
。
虽然特定的内容可能会有所不同,但是

文章插图
必须始终考虑当前提示

文章插图
,以及

文章插图
在一小批数据(特别是错误数据集)上的行为,并生成缺陷的自然语言摘要 。这个摘要变成了梯度 。
就像传统的梯度一样,梯度表示参数空间中的一个方向,这会使模型用当前提示描述缺陷的自然语言空间变得更糟糕 。
第二个提示符叫做

文章插图
,虽然这个提示符也是变化的,但它必须始终采用梯度和当前提示符,然后在与相反的语义方向上对执行编辑,即修复指示的问题 。

文章插图
与传统的机器学习设置不同,研究人员并没有生成一个单一的梯度或编辑,而是生成了一些方向,可以改善当前的提示 。
集束搜索
接下来,研究者描述了梯度下降用于指导集束搜索在提示符空间上的运行 。这个集束搜索是提示训练算法的外部循环 。

文章插图
集束搜索是一个迭代优化过程,在每次迭代中,当前提示符用于生成许多新的候选提示符 。
接下来,一个选择过程就是用来决定哪些提示,值得继续进行到下一次迭代 。这个循环允许对多个提示符候选进行增量改进和探索 。
实验评估
为了评估 APO 的有效性,微软研究小组将其与三种最先进的NLP任务即时学习基线进行了比较,包括越狱检测、仇恨语音检测、假新闻检测和讽刺检测 。
APO在所有四个任务中都持续超越基线,在蒙特卡洛(MC)和强化学习(RL)基线上取得了显著的进步 。
平均而言,APO比MC和RL基线分别提高了3.9%和8.2%,比原始提示

文章插图
提高了15.3%,比AutoGPT提高了15.2% 。
结果表明,提出的算法可以提高初始提示输入31%的性能,超过最先进的提示学习基线平均4-8%,而依赖较少的LLM API调用 。
此外,研究人员还展示了优化过程的可解释性,并调查了算法的缺点 。
值得注意的是,这些改进是在没有额外的模型训练或超参数优化的情况下完成的,这表明了APO如何有效改进了LLM的提示 。
对于提示工程来说,APO的出现是非常兴奋的 。
APO通过使用梯度下降法和集束搜索自动化快速优化提示过程,减少了快速开发所需的人力和时间 。
实证结果表明,该模型能够在一系列自然语言处理任务中迅速提高质量 。

文章插图
越狱是一项新的任务,目标是确定用户对LLM的输入是否代表越狱攻击 。我们将越狱攻击定义为一种用户互动策略,旨在让AI打破自己的规则 。
发现微软研究员带来的改变游戏规则的自动提示优化(APO)!一个强大的通用框架,用于优化LLM提示 。
参考资料:
https://arxiv.org/pdf/2305.03495.pdf
推荐阅读
- 搜索大战白热化:微软全面开放Bing Chat,谷歌或实现个性化搜索
- 微软Bing Chat正式进入开放预览模式,用户已超过1亿
- 自主 AI 来了?一文详解火爆全网的 AutoGPT
- 取代C++!微软正在改用Rust语言重写Win11内核
- 大模型商业化开荒 微软走到哪里了
- 轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用
- 微软网页版PowerPoint已可上传本地视频,最大256 MB
- 动口不动手,Github 大放狠招!
- 人工智能热潮导致算力紧张,微软推新服务器租赁计划
- office官网教程在哪里 office官方网站微软office
