面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了( 二 )


因此 , 论文全面回顾了致力于改进 LLM 长上下文能力的各个阶段的最新方法,并将它们组织成一个统一的分类法,如图 1 (b) 所示 。具体而言,这些方法被分为五个主要的类别,如下:
高效注意力 (论文第 3 节):这些方法侧重于实现具有降低计算要求的高效注意力机制,甚至实现了线性复杂度 。通过这样做,它们能够通过直接在预训练阶段增加 L_max 来推进 LLM 在推理期间的有效上下文长度边界 。
长期记忆 (论文第 4 节):为了解决上下文工作记忆的局限性,一些方法旨在设计明确的记忆机制,弥补 LLM 中缺乏高效和有效的长期记忆的不足 。
外推性 PEs (论文第 5 节):最新的研究致力于通过改进现有位置编码方案的外推性能来增强 LLM 的长度泛化能力 。
上下文处理 (论文第 6 节):除了增强特定低级 Transformer 模块的方法外 , 一些方法涉及对现成的 LLM 与额外的上下文预 / 后处理 。这些方法确保每次调用 LLM 时输入始终满足最大长度要求,并通过引入多个调用开销打破上下文窗口限制 。
杂项 (论文第 7 节):探讨了各种一般且有价值的方法 , 这些方法不容易归入前面四类,为推进 LLM 的长上下文能力提供了更广泛的视角 。
未来方向论文的第 3、4、5、6 节中讨论了该领域取得的显著进展,但仍然存在一些挑战 。下面是对一些关键挑战的探讨以及未来在增强基于 Transformer 的 LLM 的长上下文能力方面进行研究和开发的潜在方向,重点关注架构的增强 。
注意力 Trade-off 。在第 3 节,作者探讨了高效注意方法往往涉及在保持全尺度注意力依赖性(例如局部注意力)或通过近似注意力提高注意力分数精度以减轻标准注意内核的计算需求之间的微妙权衡 。然而,随着上下文的延长,话语结构和相互关联的信息变得越来越复杂,需要捕捉全局、长距离的依赖性 , 同时保持精确的相关性 。
解决这一挑战需要在计算效率和尽可能保留注意模式精度之间找到最佳平衡 。因此,在长上下文 LLM 领域,这仍然是一个持续追求的目标 。最近的创新如 Flash Attention,探索了算法级别之外的 IO 感知解决方案,极大地提高了运行时和记忆开销的效率,而不会丧失注意精度 。这是在实际应用中解决这个问题的一个激动人心的潜在途径 。此外 , 可以探索在「即插即用」替代方案中集成先前的高效策略,利用强大的 GPU 内核编程工具 (如 CUDA) 或更轻量级的 Triton 。
记忆效果和效率 。正如在文章第 2.1、2.2 节中前面讨论的,作者已经概述了由于缺乏明确的记忆机制,仅依赖上下文内工作记忆以及在延长上下文交互期间 KV 缓存记忆消耗显著增加而产生的限制 。这些挑战共同强调了在基于 Transformer 的 LLM 领域需要更有效和高效的记忆机制 。虽然第 4 节中引入了各种长期记忆机制 , 但它们受到其复杂启发式设计引入的额外记忆开销的限制,因此随着时间的推移可能导致性能下降 。为了解决这一挑战,研究人员可以从最近的进展中汲取灵感,比如 Paged Attention,研发更有效的记忆存储策略,增强读 / 写吞吐量 。
长度外推挖掘 。在第 5 节中,作者对与基于 Transformer 的模型的长度外推相关的挑战进行了彻底的分析,重点关注了位置嵌入的普遍设计 。文章提供了对最近突破的全面概述,特别是应用于 RoPE 的扩展策略,作者相信这在解决外推限制方面具有重要的前景 。值得注意的是,这些进步往往依赖于对复杂高维位置嵌入属性的简化观察,并包含简单的启发式调整 。作者对使用高维嵌入来建模序列性的理论基础提出质疑,并探索在这些启发式设计的指导下引导具有许多超参数的可学习嵌入的潜在复苏 。作者认为未来的研究应该深入探讨这一领域,尤其是在 Transformer 设置下为建模序列性开发健壮的理论框架方面 , 比如 CLEX 所实现的内容 。
特定但通用目标 。前文已经为长文本建模量身定制的具体目标做了讨论,但值得注意的是,许多目标仅限于某些类型的任务,或者仅与 MLM 目标兼容 , 而不是如今更普遍的 CLM 目标 。这突显了需要特定但普遍适用的因果语言建模目标,可以在模型训练的早期有效捕捉长距离依赖性 。通过与先前提到的目标相一致,这是可能实现的 。
可靠的度量需求 。在评估度量方面,文章的第 8 节中研究了许多可选项 。根据在评估中的先前经验,常用的度量,如 ROUGE 分数,与人类判断分数存在显著差异 , 后者可以看作是「神谕」 。随着 LLM 在现实世界场景中的快速部署,越来越迫切地需要更可靠的度量来评估长上下文能力 , 特别是在生成性任务中,其中精确的真实性难以捉摸 。一个有希望的途径涉及利用最先进的 LLM (如 GPT4) 的鲁棒性作为人类评审的替代,尽管相关的高成本仍然在更广泛地在研究界中采用方面带来挑战 。


推荐阅读