武汉市运峣安商贸有限公司

3万字详实解析清华大学最新综述使命:大模子高效推理综述


发布日期:2024-09-30 21:27    点击次数:65


3万字详实解析清华大学最新综述使命:大模子高效推理综述

图片

深度学习天然话语处理 原创作家:fanmetasy

大模子由于其在种种任务中的出色推崇而引起了庸俗的关怀。然则,大模子推理的大宗算计和内存需求对其在资源受限场景的部署建议了挑战。业内一直在起劲开发旨在提魁岸模子推理效用的时期。本文对现存的对于高效大模子推理的文件进行了全面的综述总结。启程点分析了大模子推理效用低下的主要原因,即大模子参数限制、注意力算计操的二次复杂度作和自回首解码方法。然后,引入了一个全面的分类法,将现存优化使命分裂为数据级别、模子级别和系统级别的优化。此外,本文还对要道子领域的代表性方法进行了对比实验,以及分析并给出一定的见识。临了,对关连使命进行总结,并对改日的量度地点进行了研究。

论文:A Survey on Efficient Inference for Large Language Models地址:https://arxiv.org/abs/2404.14294

1 Introduction

频年来,大模子受到了学术界和工业界的庸俗关怀。

LLM领域资格了显耀的增长和显耀的成就。好多开源llm一经出现,包括gpt-系列(GPT-1, GPT-2和GPT-3), OPT, lama系列(LLaMA , LLaMA 2,BaiChuan 2 ,Vicuna, LongChat), BLOOM, FALCON, GLM和Mtaistral[12],他们用于学术量度和买卖落地。大模子的告捷源于其处理种种任务的遒劲能力,如神经话语贯穿(NLU)、神经话语生成(NLG)、推理和代码生成[15],从而完毕了ChatGPT、Copilot和Bing等有影响力的应用标准。越来越多的东谈主以为[16]LMM士的崛起和取得的成就标志着东谈主类向通用东谈主工智能(AGI)迈进了一大步。

图片

图1:大模子部署挑战

然则,LLM的部署并不老是很凯旋。如图1所示,在推理过程中,使用LLM平素需要更高的算计本钱,内存调查本钱和内存占用。(根底原因分析见Sec. 2.3)在资源受限的场景中,推理效用也会造谣(如,蔓延,混沌量,功耗和存储)。这对LLM在末端以及云场景这两方面的应用带来了挑战。例如,雄壮的存储需求使得在个东谈主札记本电脑上部署70B参数目的模子来用于缓助开发是不切施行的。此外,如果将LLM用于每一个搜索引擎苦求,那么低混沌量将带来雄壮的本钱,从而导致搜索引擎利润的大幅减少。

运气的是,大宗的时期一经被建议来,以完毕LLM的有用推理。为了赢得对现存量度的全面了解,并引发进一步的量度,著述对面前现存的LLM高效推理使命领受了分级分类和系统总结。具体来说,将现存使命分裂组织为数据级别、模子级别和系统级别的优化。此外,著述对要道子领域内的代表性方法进行了实验分析,以牢固常识,提供施行性建议并为改日的量度起劲提供带领。

图片

表1:综述对比

咫尺,综述[17],[18],[19],[20],[21],[22]均触及LLM领域。这些综述主要蚁合在LLM效用的不同方面,但提供了进一步创新的契机。Zhu等[17],Park等[18]和Wang等。[19]将综述的重点放在,模子压缩时期上,是模子级别的优化。Ding等[20]将数据和模子架构动作量度重点。Miao等[21]从机器学习系统(MLSys)量度的角度量度LLM的有用推理。比较之下,本文提供了一个更全面的量度范围,在三个眉目上处分优化:数据级别、模子级别和系统级别,同期也囊括了最近的量度使命。而Wan等[22]和Xu等[23]也对高效LLM量度进行了全面综述。基于在几个要道的子领域如模子量化和模子server端中进行的实验分析,本文通过整合对比实验,提供施行的见识和建议。如表1所示,展示了种种综述之间的比较。

本文行文结构分裂如下:第二章先容了LLMs的基本主意和常识,并对LLMs推理过程中效用瓶颈进行了详实的分析。第三章展示了本文建议的分类法。第四章到第六章从三个不同优化级别分别对关连使命进行展示研究。第七章针对几个要道的应用场景进行更庸俗的研究。第八章总结本综述的要道孝敬。

2 Preliminaries2.1 transformer架构的LLM

话语建模动作话语模子的基本功能,包括对单词序列概率进行建模并预计后续单词的概率散布。频年来量度东谈主员发现加多话语模子限制不仅提高了话语建模能力,除了传统的NLP任务除外,还产生了处理更复杂任务的能力[24],这些限制更大的话语模子是被称为大模子(LLMs)。

主流大模子是基于Transformer架构[25]打算的。典型的transformer架构的模子由数个堆叠的transformer block组成。平素,一个transformer block由一个多头自注意力(MHSA)模块,一个前馈神经齐集(FFN)和一个LayerNorm(LN)层组成。每个transformer block接管前一个transformer block的输出特征,并将其动作输入,并将特征串行送进每个子模块中,临了输出。至极的是,在第一个transformer block前,需要用一个tokenizer将传统的输入语句滚动为token序列,并紧接着使用一个embedding层将token序列滚动为输入特征。且一个稀少的位置embedding被加入到输入特征中,来对输入token序列的token要领进行编码。

Transformer架构的中枢是自注意力机制,其在多头自注意力(MHSA)模块被使用。MHSA模块对输入进行线性变换,得到了Q,K,V向量,如公式(1)所示:

其中为输入特征,为第个注意力头的变换矩阵。接着自注意力操作被应用于每个()元组并得到第个注意力头的特征,如公式(2)所示:

其中是query(key)的维度。自注意力算计包含矩阵乘法,其算计复杂度是输入长度的二次方。临了,MHSA模块将总共注意力头的特征进行拼接,并对他们作念映射矩阵变换,如公式(3)所示:

其中是映射矩阵。自注意力机制可以让模子识别不同输入部分的要害性,而无须去议论距离,也已就此可以赢得输入语句的长距离依赖以及复杂的关系。

FFN动作transformer block的另一个要害模块,被竖立在多头自注意力(MHSA)模块之后,且包含两个使用非线性激活函数的。其接管MHSA模块的输出特征如公式(4)所示,进行算计:

其中,和为两个线性层的权重矩阵,为激活函数。

2.2 大模子推理过程

最受接待的大模子,如,decoder-only架构的大模子平素领受自回首的方式生成输出语句,自回首的方式是逐token的进行输出。在每一次生成步中,大模子将昔日的全部token序列动作输入,包括输入token以及刚刚生成的token,并生成下一个token。跟着序列长度的加多,生过文本这一过程的时候本钱也显耀藏家。为了处分这个问题,一个要道时期,key-value(KV)缓存被建议来,用于加速文本生成。

KV缓存时期,包括在多头自注意(MHSA)块内,存储和复用前边的token对应的key 向量(K)和value向量(V)。此项时期在大模子推理以中得到了庸俗的应用,因为其对文本生成蔓延完毕了雄壮的优化。基于此项时期,大模子的推理过程可以分裂为两个阶段:

①prefilling阶段:大模子算计并存储原始输入token的KV缓存,并生成第一个输出token,如图2(a)所示

②decoding阶段:大模子愚弄KV  缓存一一输出token,并用更生成的token的K,V(键-值)对进行KV缓存更新。

图片

图2:KV缓存时期在大模子推理中应用旨趣暗示图

图片

如图3所示,展示了晋升推理效用的要道目的。对于横轴Latency(蔓延,在预填充(prefilling)阶段,将first token latency记作生成第一个token的时候;在decoding阶段,将per-output token latency记作生成一个token的平均时候。此外,generation latency透露输出总共这个词token序列的时候。对于纵轴Memory(内存),model size被用来透露存储模子权重所需要的内存大小以及KV cache size代表存储存储KV缓存的内存大小。此外,peak memory代表在生成工程中需要占用的最大内存。其约略为model size与KV cache size之和。对模子权重和KV缓存的内存和。胆怯蔓延和内存中,混沌量(throughput)亦然大模子推理管事系统中的一个庸俗使用的目的。token throughput透露每秒生成的token数目,request throughput透露每秒完成的苦求数。

2.3 推理效用分析

在资源受限的场景中,部署大模子并保合手其推理效用以及性能对于工业界和科研及都是雄壮的挑战。例如,对有700亿参数目的LLaMA-2-70B进行部署,以FP16数据姿首对其权重进行加载需要140GB显存(VRAM),进行推理需要至少6张 RTX 3090Ti GPU(单卡显存24GB)或者2张NVIDIA的A100 GPU(单卡显存80GB)。在推理蔓延方面,2张NVIDIA的A100 GPU上生成一个token需要100毫秒。因此,生成一个具稀有百个token的序列需要进步10秒。胆怯内存占用和推理蔓延,混沌量以及动力电量的销耗都需要被议论。大模子推理过程中,三个要害成分将很大程度上影响上述目的。算计本钱(computational cost),内存调查本钱(memory access cost)和内存使用(memory usage)。大模子推理低效用的根底原因需要关怀三个要道成分:

①Model Size:主流大模子平素包含数十亿以致万亿的参数。例如,LLaMA-70B模子包括700亿参数,而GPT-3为1750亿参数。在推理过程中,模子大小对算计本钱、内存调查本钱和内存使用产生了显耀影响。

②Attention Operation:如2.1和2.2中所述,prefilling阶段中,自注意操作的算计复杂度为输入长度的2次方,因此输入长度的加多,算计本钱、内存调查本钱和内存使用都会显耀加多。

③Decoding Approach:自回首解码是逐token的进行生成。在每个decoding step,总共模子权重都来自于GPU芯片的片下HBM,导致内存调查本钱雄壮。此外,KV缓存跟着输入长度的增长而增长,可能导致内存分散和不规矩内存调查。

3  TAXONOMY

上述部分论说了影响大模子推感性能的要道成分,如算计本钱、内存调查本钱和内存使用,并进一步分析了根底原因:Model Size、Attention Operation和Decoding Approach。好多量度从不同的角度对优化推理效用进行了起劲。通过追想和总结这些量度,著述将它们分为三个级别的优化,即:数据级别优化、模子级别优化和系统级别优化(如图4所示):

图片

图4:大模子推感性能优化分类数据级别优化:即通过优化输入prompt(例如,输入压缩)或者更好的组织输出内容(例如,输出组织)。这类优化平素不会改换原来的模子,因此莫得欢快的模子教练本钱(其中,可能需要对少许的缓助模子进行教练,但与教练大模子的本钱比较,这个本钱可以被忽略)。模子级别优化:即在模子推理时,通过打算一个有用的模子结构(如有用的结构打算)或者压缩预教练模子(如模子压缩)来优化推理效用。优化第一种优化平素需要欢快的预教练或少许的微调来保留或者回答模子能力的本钱,而第二种典型的会给模子性能带来蚀本。系统级别优化:即优化推理引擎或者管事系统。推理引擎的优化不需要进行模子教练,管事系统的优化对于模子性能而言更是无损的。此外,著述还在章节6.3中队硬件加速打算进行了简易的先容。4.数据级别优化

数据级别的优化本年来的使命可以分裂为两类,如优输入压缩或者输出组织。输入压缩时期顺利裁汰了模子的输入长度来减少推理蚀本。同期输出组织时期通过组织输出内容的结构来完毕批量(并行)推理,此方法可以晋升硬件愚弄率和造谣模子的生成蔓延。

4.1输入压缩

在大模子的施行应用中,领导词prompt至关要害,好多使命都建议了打算领导词的新方法,它们在实践中均展示出经心打算的领导可以开释大模子的性能。例如,高下体裁习(In-Context Learning)建议在prompt中包含多个关连示例,这种方法能够荧惑大模子去进行类比学习。念念维链(Chain-of-Thought, COT)时期则是在高下文的示例中加入一系列中间的推理才调,用于匡助大模子进行复杂的推理。然则,这些领导词上的关连手段不可幸免地会导致领导词更长,这是一个挑战,因为算计本钱和内存使用在prefilling时间会二次增长(如2.3节所示)。

为了处分这个问腿输入prompt压缩时期被建议来用于裁汰领导词长度且分歧大模子的回答质料组成显耀性影响。在这一时期方面,关连量度可分为四个方面,如图5所示:领导词剪辑(prompt pruning),领导词总结(prompt summary),基于领导词的软压缩(soft prompt-based compression)和检索增强生成(retrieval augmented generation, RAG)。

图片

图5:大模子输入压缩方法分类4.1.1 领导词剪辑(prompt pruning)

领导词剪辑的中枢念念想是从输入prompt中基于预界说或者学习到的要道性目的中去在线去除不要害的token,语句或者文档。DYNAICL建议对给定输入,动态地详情高下文示例的最优数目,通过一个教练好的基于大模子的controller。Selective Context这篇论文建议将token合并为数个单位,接着使用一个基于self-information目的(如,negative log likelihood)的单位级别地prompt剪辑。STDC论文基于解析树进行领导词剪辑,其迭代地删除在剪辑后导致最小性能着落的短语node。PCRL论文引入了一种基于强化学习的token级别的剪辑决议。PCRL背后的中枢念念想是通过将诚恳度和压缩比组合到奖励函数中来教练一个战略大模子。诚恳度是通过算计经过剪辑后的输出领导符和原始领导词之间的相似度来量度的。RECOMP方法完毕了一种句子级别剪辑战略来压缩用于检索增强话语模子(Retrieval-Augmented Language Models, RALMs)的领导。该方法包括使用预教练的encoder将输入问题和文档编码为latent embedding。然后,它凭据文档embedding与问题embedding的相似度决定要去除哪些文档。LLMLingua引入了一种粗到细的剪枝决议,用于prompt压缩。领先,它实施示范级别的剪辑,然后凭据困惑度实施token级别的剪辑。为了提高性能,LLMLingua建议了一个预算旁边器,在领导词的不同部分之间动态分拨剪辑预算。此外,它愚弄迭代式的token级的压缩算法来处分由要求孤立性假定引入的不准确性。LLMLingua还领受了一种散布对都战略,将主义大模子的输出散布与用于困惑度算计的较小大模子进行对都。LongLLMLingua[41]在LLMLingua的基础上进行了一些加强:(1)它愚弄以输入问题为要求的困惑度动作领导词剪辑的目的。(2)它为不同的演示分拨不同的修剪比例,并凭据其目的值在最终领导词内从新排序。(3)基于反应恢回答始内容。CoT-Influx引入了一种使用强化学习对念念维链(CoT)领导词进行粗到细粒度剪辑的方法。具体来说,它会先剪辑去除不要害的示例,然后在剩下的示例中不竭删除不要害的token。

4.1.2 领导词总结(prompt summary)

领导词总结的中枢念念想是在保合手相似的语义信息的前提下,将原有领导词浓缩为更短的总结。这些时期还可以动作领导词的在线压缩方法。与前边提到的保留未剪辑符号的领导词剪辑时期不同,这一转方法将总共这个词领导符转移为总结。RECOMP[34]引入了一个抽象压缩器(Abstractive Compressor),其将输入问题和检索到的文档动作输入,生成一个精辟的摘记。具体来说,它从大限制的大模子中提真金不怕火轻量级压缩器来进行总结使命。SemanticCompression建议了一种语义压缩方法。它启程点将文天职解成句子。然后,它凭据主题将句子分组,然后总结每组中的句子。

4.1.3 基于领导词的软压缩(Soft Prompt-based Compression)

这种压缩时期的中枢念念想是打算一个比原始领导词短得多的软领导词,动作大模子的输入。软领导词被界说为一系列可学习的一语气token。有些时期对固定前缀的领导词(如系统领导词、特定任务领导词)领受脱机压缩。例如,PromptCompression教练软领导来模拟预定的系统领导词。该方法包括在输入token之前添加几个软token,并允许在反向传播时间对这些软token进行调整。在对领导数据集进行微调之后,软token序列充任软领导词。Gisting引入了一种方法,使用前缀词调优将特定任务的领导词压缩为一组精辟的gist token。鉴于特定任务的领导会因任务而异,前缀词调优将针对每个任务单独使用。为了提高效用,Gisting进一步引入了一种元学习方法,用于预计新的未见过的gist token基于先前任务中的的gist token。

其他时期对每个新的输入领导词进行在线压缩。例如,AutoCompressors教练一个预教练的话语模子,通过无监督学习将领导词压缩成总结向量。ICAE教练了一个自动编码器将原始高下文压缩到短牵挂槽中。具体来说,ICAE领受适当LoRA的大模子动作编码器,并使用主义大模子动作解码器。在输入token之前添加一组牵挂token并将其编码到牵挂槽中。

4.1.4 检索增强生成(retrieval augmented generation, RAG)

检索增强生成(Retrieval-Augmented Generation, RAG)旨在通过整合外部常识着手来提魁岸模子回答的质料。RAG也可以看作是在处理大宗数据时提高推理效用的一种时期。RAG莫得将总共信息合并到一个过长的prompt中,而是将检索到的关连信息添加到原始领导符中,从而确保模子在显耀减少领导词长度的同期接管到必要的信息。FLARE使用对行将到来的句子的预计来主动决定何时以及检索什么信息。REPLUG将大模子视为一个黑盒,并使用可调检索模子对其进行推行。它将检索到的文档添加到冻结的黑盒大模子的输入中,并进一步愚弄大模子来监督检索模子。Self-RAG通过检索和自我反念念来提魁岸模子的质料和真确性。它引入了反馈token,使大模子在推理阶段可控。

4.2 输出组织(Output Organization)

传统的大模子的推理过程是完竣要领生成的,这会导致大宗的时候销耗。输出组织时期旨在通过组织输出内容的结构来(部分地)完毕并行化生成。

念念维骨架(Skeleton-of-Thought, SoT)是这个地点的前驱。SoT背后的中枢念念想是愚弄大模子的新兴能力来对输出内容的结构进行权术。具体来说,SoT包括两个主要阶段。在第一阶段(即框架阶段),SoT带领大模子使用预界说的“框架领导词”生成谜底的简明框架。例如,给定一个问题,如“中国菜的典型类型是什么?”,这个阶段的输出将是一个菜的列表(例如,面条,暖锅,米饭),莫得详实的描画。然后,在第二阶段(即点扩展阶段),SoT带领大模子使用“点扩展领导符”来同期扩展骨架中的每个点,然后将这些拓展劝诱起来最终形成临了谜底。当应用于开源模子时,可以通过批推理实施点扩展,这可以晋升硬件愚弄率,并在使用相通的算计资源的前提下减少总体生成蔓延,以减少稀少的算计。SoT的推理历程展示如图6所示:

图片

由于稀少的领导词(如骨架领导词和点扩展领导词)带来的支拨,SoT研究了在点扩展阶段跨多个点来分享群众领导词前缀的KV缓存的可能性。此外,SoT使用路由模子来决定SoT是否适应应用于特定的问题,目的是将其浪漫在合适的情况下使用。完结,SoT在最近发布的12个大模子上 完毕了高达2.39倍的推理加速,并通过提高谜底的种种性和关连性来提高谜底质料。

SGD进一步扩展了SoT的念念想,其将子问题点组织成一个有向无环图(DAG),并在一个回合内并行地回答逻辑孤立的子问题。与SoT访佛,SGD还愚弄大模子的新兴能力,通过提供我方制作的领导词和几个示例来生成输出结构。SGD放宽了不同点之间严格的孤立性假定,以提高谜底的质料,至极是对于数学和编码问题。与SoT比较,SGD优先议论谜底质料而不是速率。此外,SGD引入了一个自适当的模子聘请方法,来凭据其猜想的复杂性为每个子问题分拨最优模子大小,从而进一步提高效用。

APAR领受了与SoT访佛的念念想,愚弄大模子输出特殊的旁边token(如 ,[fork])来自动动态的触发并行解码。为了有用地愚弄输出内容中固有的可并行化结构并准确地生成旁边token,APAR对大模子进行了微调,这些大模子是经心打算的数据上进行的,这些数据是在特定树结构中形成的。因此,APAR在基准测试中完毕1.4到2.0倍的平均加速,且对谜底质料的影响可以忽略不计。此外,APAR将他们的解码方法与推测解码时期(如Medusa)和推理框架(如vLLM)结合,来进一步创新推理蔓延和系统混沌量。

SGLang在Python 特征原语中引入了一种领域特定话语(DSL),其能够活泼地促进大模子编程。SGLang的中枢念念想是自动分析种种生成调用之间的依赖关系,并在此基础上进行批量推理和KV缓存分享。使用该话语,用户可以浮松完毕种种领导词战略,并从SGLang的自动效用优化(如SoT,ToT)中收益。此外,SGLang 还先容并结合了几种系统级别的编译时期,如代码挪动和预取疑望。

4.3 坚强,建议和改日地点

大模子处理更长的输入、生成更长的输出的需求日益增长,这突显了数据级别的优化时期的要害性。在这些时期中,输入压缩方法的主要主义是通过减少由attention操作引起的算计和内存本钱来晋升prefilling阶段的效用。此外,对于基于API的大模子,这些方法可以减少与输入token关连的API本钱。比较之下,输出组织方法侧重于通过造谣与自回首解码方法关连的大宗内存调查本钱来优化解码阶段。

跟着大模子的功能越来越遒劲,是有可能能愚弄它们来压缩输入领导词或构建输出内容的。输出组织方法的最新进展也诠释了愚弄大模子将输出内容组织成孤立点或依赖图的有用性,从而便于批量推理以改善生成蔓延。这些方法愚弄了输出内容中固有的可并行结构,使大模子能够实施并行解码,从而提高硬件愚弄率,从而减少端到端的生成蔓延。

最近,种种领导词pipeline(如,ToT ,GoT)和Agent框架正在出现。天然这些创新提高了大模子的能力,但它们也加多了输入prompt的长度,导致算计本钱加多。为了处分这个问题,领受输入压缩时期来减少输入长度是一种很有但愿的处分决议。同期,这些pipeline和框架天然地为输出结构引入了更多的并行性,加多了并行解码和跨不同解码线程来分享KV cache的可能性。SGLang支合手活泼的大模子编程,并为前端和后端协同优化提供了契机,为该领域的进一步扩展和创新奠定了基础。总之,数据级别优化,包括输入压缩和输出组织时期,在可猜想的将来,为了提魁岸模子推理效用,将变得越来越必要。

除了优化现存框架的推理效用外,一些量度还侧重于顺利打算更高效的智能体框架。例如,FrugalGPT建议了一个由不同大小的大模子组成的模子级联,如果模子对谜底达到敷裕的详情味水平,那么推理过程就会提前住手。该方法通过愚弄分层的模子体绑缚构和基于模子置信度猜想的智能推理远隔来提高效用。与模子级别的动态推理时期(第5.2.5节)比较,FrugalGPT在pipeline级别实施动态推理。

5 模子级别优化

大模子高效推理的模子级别优化主要蚁合在模子结构或数据透露的优化上。模子结构优化包括顺利打算有用的模子结构、修改原模子和调整推理时候结构。在数据透露优化方面,平素领受模子量化时期。

在本节中,著述将凭据所需的稀少教练支拨对模子级别的优化时期进行分类。第一类包含打算更有用的模子结构(又叫有用结构打算)。使用这种方法开发的模子平素需要重新动手教练。第二类侧重于压缩预教练模子(称为模子压缩)。此类别中的压缩模子平素只需要最小的微调即可回答其性能。

5.1 有用结构打算

咫尺,SOTA大模子平素使用Transformer架构,如2.1节所述。然则,基于transformer的大模子的要道组件,包括前馈齐集(FFN)和attention操作,在推理过程中存在效用问题。著述以为原因如下:

FFN在基于transformer的大模子中孝敬了很大一部分模子参数,这导致显耀的内存调查本钱和内存使用,至极是在解码阶段。例如,FFN模块在LLaMA-7B模子中占63.01%,在LLaMA-70B模子中占71.69%。attention操作在的复杂度是输入长度的二次方,这导致大宗的算计本钱和内存使用,至极是在处理较长的输入高下文时。

为了处分这些算计效用问题,一些量度蚁合在开发更有用的模子结构上。著述将关连量度分为三组(如图7所示):高效FFN打算、高效注意力打算和Transformer替代。

图片

图7:大模子有用结构打算分类5.1.1 高效FFN打算

在这一方面,好多量度都蚁合在将夹杂大师(mixture-of-experts, MoE)时期集成到大模子中,以提魁岸模子的性能,同期保合手算计本钱。MoE的中枢念念想是动态地分拨种种预算,在面对不同的输入token时。在基于MoE的Transformers中,多个并行的前馈审计齐集(FFN),即大师,与可教练的路由模块一齐使用。在推理过程中,模子聘请性地为路由模块旁边的每个token激活特定的大师。

一些量度蚁合量度FFN大师的使命,主若是在优化大师权值的获取过程或使大师更轻量化以提高效用。例如,MoEfication打算了一种方法,使用预教练的权重将非MoE大模子转移为MoE版块。这种方法免去了对MoE模子进行欢快的预教练的需要。为了完毕这个时期,MoEfication启程点将预教练大模子的FFN神经元分红多组。在每一组中,神经元平素同期被激活函数激活。然后,它以大师的身份重组每组神经元。Sparse Upcycling引入了一种方法,顺利从密集模子的checkpoint中运滚动基于MoE的LLM的权重。在这种方法中,基于MoE的LLM中的大师是密集模子中FFN的精准复成品。通过使用这种简易的运滚动,Sparse Upcycling可以有用地教练MoE模子以达到高性能。MPOE建议通过矩阵乘积算子(Matrix Product Operators,  MPO)领悟来减少基于MoE的大模子的参数。该方法将FFN的每个权重矩阵领悟为一个包含群众信息的全局分享张量和一组拿获特定特征的局部缓助张量。

另一项量度侧重于创新MoE模子中路由模块(或战略)的打算。在以前的MoE模子中,路由模块容易导致负载抵挡衡问题,这意味着一些大师被分拨了大宗token,而另一些大师只处理少许token。这种抵挡衡不仅豪侈了未充分愚弄的大师的能力,造谣了模子的性能,还造谣了推断推理质料。面前的MoE完毕平素使用批矩阵乘法来同期算计总共FFN大师。这就要求每个大师的输入矩阵必须具有相通的形势。然则,由于存在负载抵挡衡问题,需要向那些未充分愚弄的大师中填充输入token集以得志形势欺压,这会酿成算计豪侈。因此,路由模块打算的主要主义是在MoE大师的token分拨中完毕更好的平衡。Switch Transformers在最终loss函数中引入了一个稀少的loss,即负载平衡loss,以处分路由模块的抵挡衡分拨。这种loss被表述为token分拨分数向量和均匀散布向量之间的缩放点积。因此,惟有在总共大师之间平衡token分拨时,蚀本才会最小化。这种方法荧惑路由模块在大师之间均匀地分发token,促进负载平衡并最终提高模子性能和效用。BASE用端到端的方式学习了每个大师的embedding,然后凭据embedding的相似性将大师分拨给令token。为了保证负载平衡,BASE制定了一个线性分拨问题,并愚弄拍卖算法有用地处分了这个问题。Expert Choice引入了一种简易而有用的战略来确保基于MoE的模子的齐全负载平衡。与以前将大师分拨给token的方法不同,Expert Choice允许每个大师凭据embedding的相似度孤立聘请top-k个token。这种方法确保每个大师处理固定数目的token,即使每个token可能分拨给不同数目的大师。

除了上述关怀模子架构自己的量度外,也有对基于MoE的模子的教练方法创新的关连使命。SE-MoE引入了一种新的缓助loss,称为router z-loss,其目的是在不影响性能的情况下提高模子教练的踏实性。SE-MoE发咫尺路由模块中,softmax操作所引入的指数函数会加重舍入误差,导致教练不踏实。为了处分这个问题,router z-loss会处分输入到指数函数中的未必率,从而最小化教练时间的舍入误差。StableMoE指出基于MoE的大模子存在路由波动问题,即在教练和推理阶段大师分拨不一致。对于相通的输入token,在教练时其被分拨给了不同的大师,但在推理时却只激活一个大师。为了处分这个问题,StableMoE建议领受更一致的教练方法。它启程点学习路由战略,然后在模子骨干教练和推理阶段保合手固定的路由战略。SMoE-Dropout为基于MoE的大模子打算了一种教练方法,其建议在教练过程中徐徐加多激活大师的数目。这种方法晋升了基于MoE的模子的推理和下贱微调的可扩展性。GLaM预教练并发布了一系列具有不同参数大小的模子,这诠释了它们在few-shot任务上与密集大模子的性能相配。这个系列模子中,最大的模子的参数高达1.2万亿。Mixtral 8x7B是最近发布的一个引东谈主详实的开源模子。在推理过程中,它只愚弄了130亿个活动参数,在不同的基准测试中取得了比LLaMA-2-70B模子更好的性能。Mixtral 8x7B每层由8个前馈齐集(FFN)大师组成,每个token在推理过程等分拨给两个大师。

5.1.2 高效attention打算

attention操作是Transformer体绑缚构中的一个要道部分。然则,它的算计复杂度是与输入长度关连的二次方,这导致了大宗的算计本钱、内存调查本钱和内存使用,至极是在处理长高下文时。为了处分这个问题,量度东谈主员正在探索更有用的方法来近似原始attention操作的功能。这些量度大致可以分为两个主要分支:multi-query attention和low complexity attention。

①Multi-Query Attention。Multi-Query Attention(MQA)通过分享横跨不同注意力头的KV缓存来优化attention 操作。这项战略有用的减少了推理时的内存调查本钱和内存使用,对改善Transformer模子的性能带来了匡助。如第2.2节所述,transformer类型的大模子平素领受多头注意力(MHA)操作。该操作需要在解码阶段为每个注意力头存储和检索KV对,导致内存调查本钱和内存使用大幅加多。而MQA通过在不同的头上使用相通的KV对,同期保合手不同的Q值来处分这一问题。通过庸俗的测试,MQA一经被诠释可以显耀造谣内存需求,且对模子性能的影响很小,这使它成为一个提高推理效用的要道时期。Grouped-query attention(GQA)进一步扩展了MQA的主意,它可以看作是MHA和MQA的夹杂。具体来说,GQA将注意力头分红不同的组,然后为每个组存储一组KV值。这种方法不仅保合手了MQA在减少内存支拨方面的上风,还强化了推理速率和输出质料之间的平衡。

②Low-Complexity Attention。Low-Complexity Attention方法旨在打算新的机制来造谣每个注意力头的算计复杂度。为了简化研究,这里假定Q(查询)、K(键)和V(值)矩阵的维度是相通的,即。由于底下的使命不触及像MQA那样改换注意头的数目,此处的研究蚁合在每个头内的注意力机制。如2.2节所述,传统注意力机制的算计复杂度为,相配于跟着输入长度增长,呈二次增长。为了处分低效用问题,Kernel-based Attention和Low-Rank Attention方法被建议,此方法将复杂度造谣到。

Kernel-based Attention。基于核的注意力打算了一个核,通过变换特征映射之间的线性点积如,,来近似的非线性softmax操作。它通过优先算计,然后将其与相乘,从而幸免了与关连的传统二次算计。具体来说,输入Q和K矩阵启程点通过核函数映射到核空间,但是保合手其原始维度。接着愚弄矩阵乘法的关联脾性,允许K和V在与Q交互之前相乘。因此注意力机制被从新表述为:

其中,。此方法有用的将算计复杂度造谣至,使其与输入长度成线性关系。Linear Transformer是第一个建议基于核的注意力的使命。它领受动作核函数,其中透露指数线性单位激活函数。Performers和RFA建议使用随机特征映射来更好地近似softmax函数。PolySketchFormer领受多项式函数和素描时期近似softmax函数。

Low-Rank Attention。 Low-Rank Attention时期在实施注意算计之前,将K和V矩阵的token维度(如)压缩到较小的固定长度(即如)。该方法基于对注意力矩阵平素推崇出低秩脾性的坚强,使得在token维度上压缩它是可行的。这条量度路子的主要重点是打算有用的压缩方法,其中可以是高下文矩阵,也可以是K和V矩阵:

有一种使命是使用线性投影来压缩token维度。它通过将K和V矩阵与映射矩阵相乘来完成的。这么,注意力算计的算计复杂度降至,与输入长度成线性关系。Linformer启程点不雅察并分析了注意力的低秩性,建议了低秩注意力框架。LRT建议将低秩变换同期应用于attention模块和FFN,来进一步提高算计效用。FLuRKA将低秩变换和核化结合到注意力矩阵中,进一步提高了效用。具体的说,它启程点造谣K和V矩阵的token的维度,然后对Q和低秩K矩阵应用核函数。

除了线性映射外,其他的token维度压缩方法也被建议出来。Luna和Set Transformer愚弄稀少的注意力算计和较小的query来有用地压缩K和V矩阵。Luna则是使用了一个稀少的固定长度为的query矩阵。小的query使用原始的高下文矩阵实施注意力算计,称为pack attention,来将高下文矩阵压缩到大小为。随后,成例的注意力算计,称为unpack attention,将注意力算计应用于原始Q矩阵和压缩的K和V矩阵。稀少的query矩阵可以是可学习的参数或从前一层中获取。Set Transformer通过引入固定长度的矢量,打算了访佛的时期。FunnelTransformer不同于以往压缩K和V的使命,它使用池化操作来徐徐压缩Q矩阵的序列长度。

5.1.3 Transformer替代

除了聚焦于优化注意力操作除外,最近的量度还创新地打算了高效而有用的序列建模体绑缚构。表2比较了一些代表性的非transformer架构模子的性能。在教练和推理过程中,这些架构的模子在序列长度方面推崇出小于二次方的算计复杂度,使大模子能够显明加多其高下文长度。

图片

典型非Transformer架构模子性能比较

在这些量度中,有两个凸起的量度地点引起了极大的关怀。其中一条量度蚁合在状况空间模子(State Space Model, SSM)上,该模子将序列建模视作一种基于HiPPO表面的递归变换。此外,其他量度主要蚁合在使用长卷积或打算访佛注意力的公式来建模序列。

State Space Model:状况空间模子(SSM)在某些NLP和CV任务中的建模能力极具竞争力。与基于注意力的Transformer比较,SSM在输入序列长度方面推崇出线性的算计和存储复杂度,这提高了其处理长高下文序列的能力。本篇综述中,SSM是指一系列得志以下两个属性的模子架构:

(1)它们基于HiPPO和LSSL建议的以下公式对序列进行建模:

其中,透露转移矩阵。为中间状况,为输入序列。

(2)他们基于HiPPO表面打算了转移矩阵A。具体来说,HiPPO建议通过将输入序列映射到一组多项式基上,将其压缩为总共序列(即)。

在上述框架的基础上,一些量度主要蚁合在创新转移矩阵A的参数化或运滚动。这包括在SSM中从新界说矩阵的公式或运滚动方式,以增强其在序列建模任务中的有用性和性能。LSSL启程点建议用HiPPO打算的最优转移矩阵运滚动A。此外,LSSL还通过张开公式(7),以卷积的方式教练SSM。具体地说,通过界说一个卷积核为,可以将公式(7)改写为,也可以通过快速傅里叶变换(FFT)高效地算计。然则,算计这个卷积核的代价是欢快的,因为它需要屡次乘以A。为此,S4、DSS和S4D建议对矩阵A进行对角化,从而加速算计速率。这可以看作是转移矩阵A的参数化时期。昔日的SSM孤立处理每个输入维度,从而会产生大宗可教练的参数。为了提高效用,S5建议使用一组参数同期处理总共输入维度。在此结构的基础上,S5先容了基于标准HiPPO矩阵的A的参数化和运滚动方法。Liquid S4和Mamba以输入依赖的方式对转移矩阵进行参数化,这进一步增强了SSM的建模能力。此外,S5和Mamba均领受并行扫描时期,无需卷积操作即可进行有用的模子教练。这种时期在当代GPU硬件上的完毕和部署方面具有上风。

另一类量度地点是基于SSM打算更好的模子架构。GSS和BiGS结合了门控注意力单位(GAU)和SSM。它们将GAU中的注意力操作替换为SSM操作。BST将SSM模子与建议的使用强局部感应偏置的Block Transformer相结合。H3不雅察到SSM在调回较早的token和跨序列比较token方面很弱。为此,它建议在标准SSM操作之前加多一个移位SSM操作,用于顺利将输入令牌移位干预状况。MambaFormer结合了标准Transformer和SSM模子,将Transformer中的FFN层替换为SSM层。Jamba引入了另一种方法,通过在SSM模子中添加四个Transformer层来组合Transformer和SSM模子。DenseMamba探讨了传统SSM中荫藏状况退化的问题,并在SSM体绑缚构中引入了繁多劝诱,以在模子的更深层中保存细粒度信息。BlackMamba和MoE- mamba建议用夹杂大师(Mixture-of-Experts,  MoE)时期增强SSM模子,在保合手模子性能的同期优化教练和推理效用。

其他代替:除了SSM除外,还有其他几种高效的替代决议也引起了极大的关怀,包括长卷积和类attention的递归运算。一些量度在长序列建模中领受了长卷积。这些使命东若是对于卷积参数的参数化的。例如,Hyena领受了一种数据关连的参数化方法,用于使用浅前馈神经齐集(FFN)的长卷积。其他打算类注意力操作,但可以纳入轮回方式的量度,从而完毕高效的教练和高效的推理。例如,RWKV是在AFT的基础上开发的,AFT建议将Transformer模子中的注意力操作代入如下公式:

其中,和Transformer相通 ,分别为quey,key,vakue,为一个可学习的成对位置偏差和为一个非线性函数。具体来说,它进一步将位置偏差进行重参数化,,因此可以将公式(8)重写为递归形势。这么,RWKV可以将Transformer的有用并行化教练脾性和RNN的高效推理能力结合起来。

效用分析:著述在表2等分析和比较了几种创新的和具有代表性的非Transformer架构的模子的算计和内存复杂性。在教练时候方面,好多模子(如S4, Hyena, RetNet)这些通过使用卷积或注意力等教练形势来保合手教练并行性。值得注意的是,Mamba用并行扫描时期处理输入序列,从而也使用了教练并行性。

另一方面,在推理过程中,大多数量度聘请轮回架构来保合手prefilling阶段的线性算计复杂度并在decoding阶段保合手高下文长度不可知。而且,在decoding阶段,这些新颖的体绑缚构放弃了缓存和加载历史token的脾性的需要(访佛于基于Transformer的话语模子中的KV缓存),从而显耀省俭了内存调查本钱。

5.2 模子压缩

模子压缩包括一系列旨在通过修改预教练模子的数据透露(例如,量化)或改换其模子架构(例如,稀薄化、结构优化和动态推理)来提高其推理效用的时期,如图8所示。

图片

图8:大模子的模子压缩方法分类5.2.1 量化

量化是一种庸俗使用的时期,通过将模子的权重和激活从高位宽透露转移为低位宽透露来减少大模子的算计和内存本钱。具体来说,好多方法都触及到将FP16张量量化为低位整型张量,可以透露为如下公式:

其中透露16位浮点(FP16)值,透露低精度整数值,透露位数,和透露缩放因子和零点。

不才面,本文从效用分析动手,说明量化时期怎样减少大模子的端到端推理蔓延。随后,再分别详实先容两种不同的量化使命历程:Post-Training Quantization (PTQ)和Quantization-Aware Training (QAT)。

效用分析:如2.2节所述,大模子的推理过程包括两个阶段:prefilling阶段和decoding阶段。在prefilling阶段,大模子平素处理长token序列,主要操作是通用矩阵乘法(GEMM)。Prefilling阶段的蔓延主要受到高精度CUDA内核实施的算计操作的浪漫。为了处分这个问题,现存的量度方法对权重和激活量化,以使用低精度Tensor核来加速算计。如图9 (b)所示,在每次GEMM操作之前会在线实施激活量化,从而允许使用低精度Tensor核(例如INT8)进行算计。这种量化方法被称为权重激活量化。

比较之下,在解码阶段,大模子在每个生成步中只处理一个token,其使用通用矩阵向量乘法(GEMV)动作中枢操作。解码阶段的蔓延主要受到加载大权重张量的影响。为了处分这个问题,现存的方法只关怀量化权重来加速内存调查。这种方法称为,启程点对权重进行离线量化,然后将低精度权重去量化为FP16姿首进行算计,如图9 (a)所示。

图片

图9:(a)纯权重量化推理历程。(b)权重激活量化推理历程。

Post-Training Quantization: PTQ触及对预教练模子进行量化,而不需要再教练,这可能是一个欢快的过程。尽管PTQ方法一经在较小的模子中得到了很好的探索,但是将现存的量化时期顺利应用于大模子存在可贵。这主若是因为与较小的模子比较,大模子的权重和激活平素推崇出更多的额外值,何况具有更宽的散布范围,这使得它们的量化更具挑战性。总之,大模子的复杂脾性,以其限制和复杂性为特征,需要用有意的方法来有用地处理量化过程。大模子中额外值和更宽的散布范围的存在需要开发量身定制的量化时期,以便在不影响模子性能或效用的情况下处理这些独有的特征。

大宗的量度悉力于于开发有用的量化算法来压缩大模子。本文在表3中提供了跨四个维度分类的代表性算法的空洞。对于量化张量的种类,某些量度专注于weight-only quantization,而其他好多量度则专注于权重和激活的量化。值得注意的是,在大模子中,KV缓存代表了影响内存和内存调查的独有组件。因此,一些量度建议对KV缓存进行量化。在量化姿首方面,为了便于硬件完毕,大多数算法领受协调的姿首。对于量化参数(如缩放因子、零点)的详情,大多数量度依赖于由权重或激活值得出的统计数据。然则,也有一些量度主张基于重构loss来寻找最优参数。此外,一些量度也建议在量化之前或量化过程中更新未量化的权重(称为)以提高性能。

在weight-only quantization方法中,GPTQ代表了大模子量化的早期较好的使命,它开发在传统算法OBQ的基础上。OBQ通过相对于未量化权重的Hessian矩阵的重建误差的方法,来完毕每行权重矩阵的最优量化要领。在每个量化才调之后,OBQ迭代调整未量化的权重以松开重建误差。然则,量化过程中频繁更新Hessian矩阵加多了算计复杂度。GPTQ通过领受协调的从左到右的要领来量化每一转,从而简化了这个过程,从而幸免了大宗更新Hessian矩阵的需要。该战略通过在量化一转时仅算计Hessian矩阵,然后将算计完结用于后续行,从而大大减少了算计需求,从而加速了总共这个词量化过程。LUT- GEMM建议了一种新的愚弄查找表(Look-Up Table, LUT)的去量化方法,旨在通过减少去量化支拨来加速量化大模子的推理过程。此外,它领受了一种称为二进制编码量化(BCQ)的非均匀量化方法,该方法包含了可学习的量化区间。AWQ不雅察到权重通谈对性能的要害性各不相通,至极强调那些与激活额外值的输入通谈对都的通谈。为了增强要道权重通谈的保存,AWQ领受了一种重参数化的方法。该方法通过网格搜索聘请重参数化总共,有用地减小了重构误差。OWQ不雅察到量化与激活额外值关连的权重的可贵。为了处分这个问题,OWQ领受了夹杂精度量化战略。该方法识别权重矩阵中的弱列,并为这些特定权重分拨更高的精度,同期以较低的精度级别量化其余权重。SpQR引入了一种方法,在量化过程中识别和分拨更高精度的权重额外值,而其余权重被量化为3位。SqueezeLLM建议将离群值存储在全精度稀薄矩阵中,并对剩余权重应用非均匀量化。凭据量化机灵度详情非均匀量化的值,能够提高量化模子的性能。QuIP引入了LDLQ,一种二次代理主义的最优自适当方法。量度标明,保证权值与Hessian矩阵之间的不联系性可以提高LDLQ的有用性。QuIP愚弄LDLQ,通过随机正交矩阵乘法完毕非联系性。FineQuant领受了一种启发式方法。为了详情每列量化的粒度,结合从实验中赢得的告戒见识来打算量化决议。QuantEase的使命开发在GPTQ之上。在对每一层进行量化时,其建议了一种基于坐标着落的方法来更精准地抵偿未量化的权重。此外,QuantEase可以愚弄来自GPTQ的量化权重动作运滚动,并进一步完善抵偿过程。LLM-MQ领受FP16姿首保护权重额外值,并将其存储在压缩稀薄行(CSR)姿首中,以提高算计效用。此外,LLM-MQ将每个层的位宽分拨,建模为整数权术问题,并领受高效的求解器在几秒内求解。LLM-MQ还打算了一个高效的CUDA内核来集成去量化运算符,从而造谣了算计过程中的内存调查本钱。

对于weight-activation quantization,ZeroQuant领受细粒度量化权值和激活,愚弄核领悟来最小化量化过程中的内存调查本钱,并逐层进行常识蒸馏以回答性能。FlexGen将权重和KV缓存顺利量化到INT4中,以减少多数目推理时间的内存占用。LLM.int8() 发现激活中的额外值蚁合在一小部分通谈中。基于这一丝,LLM.int8() 凭据输入通谈内的离群值散布将激活和权重分红两个不同的部分,以最小化激活中的量化误差。包含激活值和权重的额外数据的通谈以FP16姿首存储,其他通谈则以INT8姿首存储。SmoothQuant领受了一种从新参数化时期来处重量化激活值的挑战。该方法引入比例因子,扩大了权重通谈的数据范围,缩小了相应激活通谈的数据范围。ZeroQuant引入了权重的组级别的量化战略和激活的token级别的量化方法。在此方法的基础上,ZeroQuantV2建议了LoRC(低秩抵偿)时期,领受低秩矩阵来松开量化不准确性。RPTQ发现不同激活通谈的散布,实质上是变化的,这给量化带来了挑战。为了缓解这个问题,RPTQ将具有相似激活散布的通谈从新组织到集群中,并在每个集群中独速即应用量化。OliVe不雅察到离群值近邻的正态值不那么要道。因此,它将每个离群值与一个正态值配对,铁心正态值,以赢得更大的离群值透露范围。OS+不雅察到额外值的散布是蚁合且分歧称的,这对大模子的量化建议了挑战。为了处分这个问题,OS+引入了一种通谈级别的挪动和缩放时期。在搜索过程去详情挪动和缩放参数,能有用地处理蚁合庸分歧称的离群值散布。ZeroQuant-FP量度了将权重和激活值量化为FP4和FP8姿首的可行性。量度标明,与整数类型比较,将激活量化为浮点类型(FP4和FP8)会产生更好的完结。Omniquant与先前依赖量化参数的告戒打算的方法不同。相背,它优化了权值剪辑的界限和等效变换的缩放因子,以最小化量化误差。QLLM通过完毕通谈重组来处分额外值对量化的影响。此外,QLLM还打算了可学习的低秩参数,来减小post-quantized模子的量化误差。Atom领受了夹杂精度和动态量化激活的战略。值得注意的是,它扩展了这种方法,将KV缓存量化为INT4,以提高混沌量性能。LLM-FP4起劲将总共这个词模子量化为FP4姿首,并引入了预移位指数偏置时期。该方法将激活值的比例因子与权重相结合,以处分额外值带来的量化问题。BiLLM代表了迄今为止最低位PTQ的使命之一。BiLLM识别了权值的钟形散布和权值Hessian矩阵的额外长尾散布。在此基础上,建议了将基于Hessian矩阵的权重结构分类为显耀值和非显耀值,并分别进行二值化。因此,BiLLM可以将大模子庸俗量化到1.08位,且不会显耀造谣困惑度。KVQuant通过在校准集上离线导出最优数据类型,建议了KV缓存量化的非均匀量化决议。KIVI建议了一种无需调优的2bit KV缓存量化算法,该算法愚弄单通谈量化用于key cache,愚弄单token量化进行value cache。Li等进行了全面的评估,评估了量化对不同张量类型(包括KV Cache)、种种任务、11种不同的大模子和SOTA量化方法的影响。

Quantization-Aware Training:QAT在模子教练过程中议论了量化的影响。通过集成复制量化效用的层,QAT有助于权重适当量化引起的诞妄,从而提高任务性能。然则,教练大模子平素需要大宗的教练数据和算计资源,这对QAT的实施组成了潜在的瓶颈。因此,咫尺的量度使命蚁合在减少教练数据需求或松开与QAT实施关连的算计包袱的战略上。为了减少数据需求,LLM-QAT引入了一种无数据的方法,愚弄原始FP16的大模子生成教练数据。具体来说,LLM-QAT使用词表中的每个token动作生成句子的肇始符号。基于生成的教练数据,LLM- QAT应用了基于蒸馏的使命流来教练量化的LLM,以匹配原始FP16大模子的输出散布。Norm Tweaking只针对那些在话语类别中占最高比例的话语,作念了肇始符号的浪漫聘请。这一战略可以有用地提高量化模子在不同任务上的生成性能。

为了减少算计量,好多方法领受高效参数微调(parameter-efficient tuning,PEFT)战略来加速QAT。QLoRA将大模子的权重量化为4位,随后在BF16中对每个4位权重矩阵使用LoRA来对量化模子进行微调。QLoRA允许在一个惟有30GB内存的GPU上对65B参数的大模子进行有用的微调。QALoRA则建议在QLoRA中加入分组量化。作家不雅察到QLoRA中量化参数的数目彰着小于LoRA参数的数目,这会导致量化与低秩自适当之间的抵挡衡。他们建议,组级别的操作可以通过加多专用于量化的参数数目来处分这个问题。此外,QA-LoRA可以将LoRA项合并到相应的量化权矩阵中。LoftQ指出,在QLoRA顶用零运滚动LoRA矩阵对于下贱任务是低效的。动作一种替代决议,LoftQ建议使用原始FP16权重与量化权重之间差距的奇异值领悟(Singular Value Decomposition,SVD)来运滚动LoRA矩阵。LoftQ迭代地应用量化和奇异值领悟来赢得更精准的原始权重近似值。Norm Tweaking建议在量化后教练LayerNorm层,并使用常识蒸馏将量化模子的输出散布与FP16模子的输出散布进行匹配,达到访佛LLM-QAT的效用,同期幸免了较高的教练本钱。

对比实验与分析:本综述的作家对不同场景下的weight-only quantization时期所产生的加速效用。作家使用了LLaMA-2-7B和LLaMA-2-13B,并使用AWQ将它们的权重量化至4-bit。作家使用NVIDIA A100进行实验,并使用TensorRT-LLM和LMDeploy这两个推理框架部署量化后的大模子。然后,作家评估了这些推理框架在不同的输入序列上完毕的加速,这些序列是批大小和高下文长度不同的。prefilling蔓延、decoding蔓延端到端蔓延的加速效用,如表4所示。

图片

表4:大模子加速效用对比

实验完结标明:(1)Weight-only quantization可以在decoding阶段加速,进而完毕端到端的加速。这种晋升主要源于从高带宽内存( High Bandwidth Memory,HBM)更快地加载具有低精度权重张量的量化模子,这种方法显耀减少了内存调查支拨。(2)对于prefilling阶段,weight-only quantization可能会加多蔓延。这是因为prefilling阶段的瓶颈是算计本钱,而不是内存调查支拨。因此,只量化莫得激活的权重对蔓延的影响最小。此外,如图9所示,weight-only quantization需要将低精度权重去量化到FP16,这会导致稀少的算计支拨,从而降速prefilling。(3)跟着批量大小和输入长度的加多,weight-only quantization的加速程度渐渐减小。这主若是因为,对于更大的批处理大小和输入长度,算计本钱组成了更大比例的蔓延。天然weight-only quantization主要造谣了内存调查本钱,但跟着批量大小和输入长度增大,算计需求变得愈加凸起,它对蔓延的影响变得不那么显耀。(4)由于内存调查支拨与模子的参数目限制关连,weight-only quantization为参数限制较大的模子提供了更大的克己。跟着模子的复杂度与尺寸的增长,存储和调查权重所需的内存量也会成比例地加多。通过量化模子权重,weight-only quantization可以有用地减少内存占用和内存调查支拨。

5.2.2 稀薄化(Sparsification)

稀薄化是一种压缩时期,可以加多数据结构(如模子参数或激活)中零值元素的比例。该方法通过在算计过程中有用地忽略零元素来造谣算计复杂度和内存占用。在应用到大模子中时,稀薄化平素应用于权重参数和注意力激活。这导致了权值修剪战略和稀薄注意力机制的发展。

权重修剪(Weight Pruning):权值修剪系统地从模子中去除不太要道的权值和结构,旨在减少预填充阶段息争码阶段的算计和内存本钱,而不会显耀影响性能。这种稀薄化方法分为两种主要类型:非结构化修剪和结构化修剪。它们的分类基于修剪过程的粒度,如图10所示。

图片

图10:非结构化修剪和结构化修剪

非结构化修剪以细粒度修剪单个权重值。与结构化修剪比较,它平素在对模子预计影响最小的情况下完毕更高的稀薄度。然则,通过非结构化剪枝完毕的稀薄模式勤奋高眉目的律例性,导致不规矩的内存调查和算计模式。这种不律例会严重繁重硬件加速的后劲,因为当代算计架构针对密集、规矩的数据进行了优化。因此,尽管完毕了更高的稀薄度级别,但非结构化剪枝在硬件效用和算计加速方面的施行克己可能是有限的。

权值修剪的焦点是修剪标准,包括权重要害性和修剪比例。议论到大模子的参数限制雄壮,提高剪枝效用也至关要害。一个修剪准则是最小化模子的重建蚀本。SparseGPT是该领域的代表性方法。它受命OBS的念念想,议论去除每个权值对齐集重构蚀本的影响。OBS迭代地详情一个剪枝掩模对权值进行剪枝,并重建未剪枝的权值以抵偿剪枝蚀本。SparseGPT通过最优部分更新时期克服了OBS的效用瓶颈,打算了一种基于OBS重构误差的自适当掩码聘请时期。Prune and Tune通过在修剪过程中使用最少的教练才调微调大模子来创新SparseGPT。ISC结合OBS和OBD中的显耀性标准打算了一种新的修剪标准。该算法进一步凭据Hessian信息为每一层分拨非均匀剪枝比例。BESA通过重构蚀本的梯度着落学习一个可微的二值掩码。每一层的剪枝比按序通过最小化重建误差来详情。另一种流行的修剪标准是基于大小缺定。Wanda建议使用权值与输入激活范数之间的元素积动作修剪准则。RIA通过使用相对要害性和激活度的度量来合资议论权重和激活度,该度量基于其总共劝诱的权重来评估每个权重元素的要害性。此外,RIA将非结构化稀薄范式转移为结构化N:M稀薄范式,可以在NVIDIA GPU上赢得施行的加速。OWL侧重于详情各层的剪枝比例。它凭据激活额外值比率为每一层分拨剪枝比率。

与非结构化修剪比较,结构化修剪以更粗的粒度操作,修剪模子中较大的结构单位,例如总共这个词通谈或层。这些方法顺利促进了在传统硬件平台上的推理加速,因为它们与这些系统优化处理的密集、规矩的数据范式保合手一致。然则,结构化修剪的粗粒度平素会对模子性能产生更彰着的影响。这类修剪标准还强制实施结构化修剪模式。LLM-Prune建议了一种任务不可知的结构化修剪算法。具体来说,它启程点凭据神经元之间的劝诱依赖关系识别出大模子中的偶联结构。然后,它凭据打算邃密的组级别的修剪度量来决定要删除哪些结构组。修剪后,进一步建议通过一个高校参数教练时期,如LoRA往来答模子性能。 Sheared LLaMA建议将原始大模子修剪为现存预教练大模子的特定主义架构。此外,它打算了动态批数据加载时期来晋升post-training 性能。

ZipLM迭代地识别和修剪结构组件,在损成仇运行时候之间进行最坏的权衡。LoRAPrune为带有LoRA模块的预教练大模子建议了结构化修剪框架,以完毕基于LoRA的模子的快速推理。它打算了基于LoRA的权值和梯度的由LoRA带领的剪枝准则,并打算了基于该准则去除不要害权值的迭代剪枝决议。LoRAShear还为基于LoRA的大模子打算了一种修剪方法,该方法领受(1)图算法来识别最小的去除结构,(2)渐进式结构化剪接算法LHSPG,(3)动态常识回答机制往来答模子性能。SliceGPT[174]基于RMSNorm操作的算计不变性念念想。它建议在每个权值矩阵中对稀薄性进行结构化摆列,并对总共这个词行或列进行切片。PLATON[建议通过议论权重的要害性和不详情味来修剪权重。它使用要害性分数的指数挪动平均(Exponential Moving Average,EMA)来猜想要害性,对不详情味领受上置信度界(UCB)。SIMPLE建议通过学习相应的稀薄掩码来修剪注意头、FFN神经元和荫藏维度。在进行剪枝后,进一步领受常识精馏对剪枝后的模子进行微调,完毕性能回答。

稀薄注意力(Sparse Attention):Transformer多头自注意力(MHSA)组件中的稀薄注意时期可以战略性地不详某些注意运算,以提高注意运算的算计效用,主若是在预填充阶段。这些机制凭据对特定输入数据的依赖程度分为静态和动态两类。

静态稀薄注意力去除了孤立于特定输入的激活值。这些方法事先详情了稀薄的注意力掩码,并在推理过程中将其强加于注意力矩阵。昔日的量度使命结合了不同的稀薄模式来保留每个注意力矩阵中最基本的元素。如图11(a)所示,最常见的稀薄注意力模式是局部和全局注意模式。腹地注意力范式拿获每个token的腹地高下文,并在每个token周围竖立固定大小的窗口注意。全局注意力范式通过算计和关怀总共这个词序列中的总共token来拿获特定token与总共其他token之间的关连性。愚弄全局模式可以放弃存储未使用的token的KV对的需要,从而减少了解码阶段的内存调查本钱和内存使用。Sparse Transformer将这些模式结合起来,用腹地模式拿获腹地高下文,然后每隔几个单词就用全局模式团聚信息。StreamingLLM只对前几个token应用腹地模式和全局模式。完结标明,这种全局模式动作注意力漕,保合手了对运转符号的强注意得分。它有助于大模子推广到无尽输入序列长度。Bigbird也使用随机模式,其中总共token都参加一组随机token。诠释了局部模式、全局模式和随机模式的组合可以封装总共一语气序列到序列的函数,并阐发了其图灵完备性。如图11(b)所示,Longformer还引入了彭胀的滑动窗口模式。它访佛于扩张的CNN,使滑动窗口“扩张”以加多收受野。为了使模子适当稀薄竖立,Structured sparse Attention提倡一种熵感知的教练方法,将高概率的注意力值鸠合到更密集的区域中。与以往手工打算稀薄模式的量度不同,SemSA使用基于梯度的分析来识别要害的注意模式,并自动优化注意密度散布,进一步提高模子效用。

图片

图11:不同的稀薄注意力掩码例如

比较之下,动态稀薄注意力凭据不同的输入自适当地放弃激活值,通过实时监测神经元的激活值来绕过对神经元的影响可以忽略的算计,从而完毕修剪。大多数动态稀薄注意方法领受动态token修剪方法,如图11(c)所示。Spatten、SeqBoat和Adaptive Sparse Attention愚弄话语结构的固有冗余建议动态符号级修剪战略。Spatten通过汇总注意力矩阵列来评估每个单词的积存要害性,并在背面的层中从输入中对具有最小积存要害性的token进行修剪。SeqBoat教练了一个线性状况空间模子(State Space Model, SSM),该模子带有一个稀薄的sigmoid函数,以详情每个注意力头需要修剪哪个token。Spatten和SeqBoat都对总共这个词输入的无信息的token进行了修剪。自适当稀薄注意力在生成过程中渐渐修剪token。它去除了高下文中,在改日生成不再需要的部分。

除了动态token修剪,动态注意力修剪时期也被应用。如图11(d)所示,这些方法不是修剪某些token的总共注意力值,而是凭据输入动态地修剪注意力的聘请部分。在关连使命中,一个较为可以的方法是动态地将输入token分红组,称为桶,并战略性地不详驻留在单独桶中的token的注意力算计。这些方法的重点在于怎样将关连的token聚类在一齐,来促进它们之间的注意力算计,从而提高效用。Reformer愚弄位置敏锐的哈希来将分享相通哈希码的key和query鸠合到合并个桶中。在此之后,Sparse Flash Attention引入了有意针对这种基于哈希的稀薄注意力机制进行优化的GPU内核,进一步提高了算计效用。同期,Routing Transformer领受球形k-means聚类算法将token团聚到桶中,优化了注意力算计的聘请过程。Sparse Sinkhorn Attention领受学习排序齐集将key与其关连的query桶对都,确保仅在相应的query和key对之间算计注意力。与桶级操作不同,H2O引入了token级动态注意力修剪机制。它将静态腹地注意力与面前query和一组动态符号的key token之间的动态算计结合起来,称作heavy-hitters(H2)。这些 heavy-hitters通过移除战略进行动态调整,该战略旨在在每个生成才调中删除最不要害的key,从而有用地管制heavy-hitter集的大小和关连性。

此外,将每个token视为图节点,将token之间的注意力视为边,可以扩展静态稀薄注意力的视角。原始的全注意力机制等同于一个均匀最短旅途距离为1的完整图。稀薄注意力通过其随机掩码引入随机边,有用地将自便两个节点之间的最短旅途距离减小到,从而保合手访佛于完竣注意的高效信息流。Diffuser愚弄图论的视角,通过多跳token关联来扩展稀薄注意的收受场。它还从扩展图属性中赢得灵感,以打算更好的稀薄模式,以近似全注意力的信息流。

除了注意力级和token级的稀薄性除外,注意力修剪的范围扩展到种种粒度。Spatten还将修剪从token粒度扩展到注意力头粒度,放弃了不必要的注意力头的算计,以进一步减少算计和内存需求。

5.2.3 架构优化(Structure Optimization)

架构优化的主义是从新界说模子的体绑缚构或者架构,以提高模子效用和性能之间的平衡。关连使命中有两种凸起的时期:神经结构搜索(Neural Architecture Search, NAS)和低秩领悟(Low Rank Factorization, LRF)。

神经结构搜索(Neural Architecture Search):神经架构搜索(Neural Architecture Search, NAS)旨在自动搜索在效用和性能之间达到最好平衡的最优神经架构。AutoTinyBERT愚弄one-shot神经架构搜索(NAS)来发现Transformer架构的超参数。值得注意的是,它引入了一种引东谈主详实的批处理教练方法来教练超等预教练话语模子(SuperPLM),随后使用进化算法来识别最优子模子。NAS-BERT使用一些创新时期,如块级别搜索、搜索空间修剪和性能靠拢,在传统的自监督预教练任务上教练大型超等齐集。这种方法允许NAS-BERT有用地应用于种种下贱任务,而不需要大宗的从新教练。通过NAS进行结构剪枝将结构剪枝动作一个多主义NAS问题,通过一次性的NAS方法进行处分。LiteTransformerSearch建议使用不需要教练的目的,例如参数的数目动作代理目的来带领搜索。这种方法可以有用地探索和聘请最优的体绑缚构,而不需要在搜索阶段进行施行的教练。AutoDistil建议了一种完竣与任务无关的few-shot NAS算法,该算法具有三种主要时期:搜索空间分裂、与任务无关的SuperLM教练和与任务无关的搜索。这种方法的目的是促进跨种种任务的高效体绑缚构发现,并减少特定于任务的调整。平素,NAS算法需要评估每个采样架构的性能,这可能会产生大宗的教练本钱。因此,这些时期在应用于大模子时具有挑战性。

低秩领悟(Low Rank Factorization):低秩领悟(LRF)或低秩领悟(Low Rank Decomposition)的目的是用两个低秩矩阵和近似一个矩阵:

其中比和小得多。这么,LRF可以减少内存使用,提高算计效用。此外,在大模子推理的解码阶段,内存调查本钱是解码速率的瓶颈。因此,LRF可以减少需要加载的参数数目,从而加速解码速率。LoRD高慢了压缩大模子的后劲,而不领悟过LRF大幅造谣性能。具体来说,领受奇异值领悟(SVD)对权重矩阵进行因式领悟,告捷地将一个包含16B个参数的大模子压缩为12.3B,性能小幅度着落。TensorGPT引入了一种使用Tensor-Train Decomposition来压缩embedding层的方法。每个token embedding都被视为矩阵乘积状况(Matrix Product State, MPS),并以散布式方式高效算计。LoSparse结合了LRF和权值剪枝在LLM压缩中的优点。通过愚弄低秩近似,LoSparse造谣了顺利进行模子修剪平素会丢失太多抒发神经元的风险。LPLR和ZeroQuant-V2都建议了对权矩阵进行LRF和量化同期压缩的方法。DSFormer建议将权重矩阵领悟为半结构化稀薄矩阵与一个袖珍密集型矩阵的乘积。ASVD打算了一个激活感知的奇异值领悟方法。该方法包括在应用奇异值领悟进行矩阵领悟之前,凭据激活散布缩放权重矩阵。ASVD还包括通过一个搜索程度详情每个层的合适的截断秩。

5.2.4 常识蒸馏(Knowledge Distillation)

常识蒸馏(Knowledge Distillation, KD)是一种老练的模子压缩时期,其中来欢快型模子(称为teacher模子)的常识被转移到较小的模子(称为student模子)。在大模子的布景下,KD使用原始的大模子动作teacher模子来提真金不怕火较小的大模子。咫尺好多量度都蚁合在怎样有用地将大模子的种种能力转移到更小的模子上。在这个领域,方法可以分为两种主要类型:白盒KD和黑盒KD(如图12所示)。

图片

图12:白盒KD(左)与黑盒KD(右)暗示图

白盒KD(White-box KD):白盒KD指的是愚弄对teacher模子的结构和参数的调查的蒸馏方法。这些方法使KD能够有用地愚弄teacher模子的中间特征和输出概率来增强student模子的性能。MiniLLM领受标准白盒KD方法,但将正向Kullback-Leibler divergence(KLD)替换为反向KLD。GKD引入了对 on-policy数据的使用,其中包括由student模子自己生成的输出序列,以进一步蒸馏学生模子。该方法侧重于使用这些战略数据来对都teacher和student模子之间的输出概率。TED建议了一种任务感知的层级别的方法,包括结合稀少的检索分层KD方法。这种方法包括在teacher和student模子的每一层之后添加过滤器,教练这些特定任务的过滤器,然后冻结teacher模子的过滤器,在教练student过滤器以使其输出特征与相应的teacher过滤器对都时。MiniMoE通过使用夹杂大师(MoE)模子动作student模子来缓解能力差距。对于新出现的实体,预教练话语模子可能勤奋最新的信息。为了处分这个问题,一种处分决议是将稀少的检索文本合并到领导中,尽管这会加多推理本钱。另外,KPTD通过常识蒸馏将常识从实体界说转移到大模子参数。该方法生成一个基于实体界说的传输集,并提真金不怕火student模子,以便将输出散布与基于这些界说的teacher模子相匹配。

黑盒KD(Black-box KD):黑盒KD是指teacher模子的结构和参数不可获取的常识蒸馏方法。平素,黑箱KD只使用teacher模子得到的最终完结来蒸馏student模子。在大模子领域,黑箱KD主要带领student模子学习大模子的泛化能力和泄漏能力,包括InContext Learning (ICL)能力、 念念维链(Chain-of-Thought, CoT)推理能力和Instruction Following (IF)能力。在ICL能力方面,Multitask-ICT引入了高下体裁习蒸馏(in-context learning distillation)来转移大模子的多任务few-shot能力,同期愚弄高下体裁习和话语建模能力。MCKD不雅察到,从通过语境学习得到的teacher模子中提真金不怕火出来的student模子,在看不见的输入prompt上通常推崇优异。基于这一不雅察,MCKD打算了一个多阶段蒸馏范式,其中使用前阶段的student模子为后续阶段生成蒸馏数据,从而提高了蒸馏方法的有用性。为了提真金不怕火念念维链(CoT)推理能力,诸如 Distilling Step-by-Step、SCoTD、CoT prompt、MCC-KD和Fine-tune-CoT等几种时期建议了提真金不怕火方法,将从大模子中提真金不怕火的反应和基得意趣结合起来教练student模子。 Socratic CoT也将推理能力转移到较小的模子。具体来说,它对一双student模子进行了微调,即问题生成(QG)模子和问题回答(QA)模子。QG模子被教练就基于输入问题生成中间问题,带领QA模子生成最终的回答。PaD不雅察到诞妄的推理(即正确的最终谜底但诞妄的推理才调)可能对student模子无益。为了处分这个问题,PaD建议生成合成标准用于推理问题,然后由附加的解释器自动检讨。这种方法有助于去除带有诞妄推理的蒸馏数据,提高student模子教练数据的质料。

5.2.5 动态推理

动态推理触及在推理过程中自适当聘请模子子结构,其以输入数据为要求。此末节重点先容early exiting的时期,这些时期使大模子能够凭据特定的样本或token在不同的模子层住手其推理。值得注意的是,天然MoE时期(在第5.1.1节中研究)也会在推理过程中调整模子结构,但它们平素触及欢快的预教练本钱。比较之下,这些时期只需要教练一个小模块来详情何时收尾推理。本文将此类量度分为两大类:样本级别的early exiting和token级别的early exiting(如图13所示)。

图片

图13:token级别和样本级别的动态推理暗示图

样本级别:样本级别的early exiting时期侧重于详情用于单个输入样本的大模子的最好大小和结构。一种常见的方法是在每一层之后使用稀少的模块来扩展大模子,愚弄这些模块来决定是否在特定层远隔推理。FastBERT, DeeBERT, MP和MPEE顺利教练这些模块来凭据面前层的特征作念出决策(例如,输出0不竭或输出1住手)。Global Past-Future Early Exit建议了一种方法,愚弄来自前一层和后一层的话语信息丰富这些模块的输入。议论到在推理过程中弗成顺利调查改日层的特征,论文教练了一个简易的前馈层来猜想这些改日特征。PABEE教练模块来动作顺利预计的输露面,建议在预计保合手一致时远隔推理。HASHEE领受了一种非参数决策方法,该方法基于相似样本应在合并层退出推理的假定。

Token级别:在大模子推理的decodig阶段,按序生成token,token级别的early exiting时期旨在优化用于每个输出token的大模子的大小和结构。CALM在每个Transformer层之后引入early exit分类器,教练它们输出置信度分数,以详情是否在特定层住手推理。值得注意的是,在self-attention模块中,算计每层面前token的特征依赖于合并层中总共先前token的特征(即KV cache)。为了处分由于先前token early exit而导致KV cache丢失的问题,CALM建议顺利将该特征从现存层复制到后续层,实验完结高慢惟有眇小的性能着落。SkipDecode处分了先前早期存在的方法的局限性,这些方法繁重了它们对批处理推理和KV cache的适用性,从而浪漫了施行的加速增益。对于批处理推理,SkipDecode为批处理中的总共token建议了一个协调的退出点。对于KV cache,SkipDecode确保了exit point的单调减少,以防护KV缓存的从新算计,从而促进了推理过程中的效用提高。

5.3 坚强,建议和改日地点

在高效结构打算方面,寻找替代Transformer的结构是一个新兴的量度领域。例如,Mamba、RWKV偏执各自的变种在种种任务中推崇出了竞争力,频年来引起了越来越多的关怀。然则,调查这些非Transformer模子与Transformer模子比较是否会推崇出某些时弊仍然是关连的。同期,探索非transformer架构与注意力操作的集成是改日另一个有但愿的量度地点。

在模子压缩领域,量化动作在大模子部署中使用的主要方法脱颖而出,主若是由于两个要道成分。启程点,量化提供了一种便捷的压缩大模子的方法。例如,使用Post-Training Quantization(PTQ)方法可以在几分钟内将具有70亿个参数的大模子的参数数分钟内减少到压缩形势。其次,量化具有完毕内存销耗和推理速率大幅造谣的后劲,同期只引入了很小的性能折损。对于好多施行应用,这种折损平素被以为是可以收受的。然则,值得注意的是,量化仍然可能会损伤大模子的某些突发能力,例如自校准或多步推理。此外,在处理长高下文等特定场景中,量化可能导致显耀的性能着落。因此,在这些特殊情况下,需要仔细聘请符合的量化方法来松开这种退化的风险。大宗文件量度了稀薄注意力时期在长高下文处理中的应用。例如,最近的一项代表性使命StreamingLLM仅通过回答几个注意力汇token就可以处理400万个token。尽管如斯,这些方法通常会铁心要道信息,从而导致性能着落。因此,在有用管制长高下文的同期保留基本信息的挑战仍然是改日探索的一个要害领域。至于权值修剪时期,LLM-KICK指出,即使在相对较低的稀薄度比下,面前起先进的(SOTA)方法也会出现相配大的性能着落。因此,开发有用的权值修剪方法来保合手大模子性能仍然是一个新兴和要道的量度地点。

模子结构的优化平素触及使用神经结构搜索(NAS),这平素需要大宗的算计资源,这对其在压缩大模子中的施行应用组成了潜在的繁重。因此,关连量度领受自动结构优化进行大模子压缩的可行性值得进一步探索。此外,像低秩领悟(LRF)这么的时期在压缩比和任务性能之间完毕最好平衡仍然是一个挑战。例如,ASVD在不影响大模子推理能力的情况下,只可完毕戒指的10%到20%的压缩比。

除了领受单独的模子压缩时期外,一些量度还探索了不同方法的组合来压缩大模子,愚弄各自的上风来提高效用。例如,MPOE将权重矩阵领悟有意应用于基于MoE的大模子中的大师前馈齐集(FFNs),目的是进一步造谣内存需求。LLM-MQ愚弄权值稀薄性时期在模子量化过程中保护权值额外值,从而最大限定地减少许化误差。LPLR侧重于量化低秩领悟权重矩阵,以进一步造谣大模子推理过程中的内存占用和内存调查本钱。此外,LoSparse将低秩领悟与权值剪枝相结合,愚弄剪枝增强低秩近似的种种性,同期愚弄低秩领悟保留要害权值,防护要道信息丢失。这些方法强调了集成多种压缩时期以更好地优化大模子的后劲。

6 系统级别优化

大模子推理的系统级优化主要触及增强模子前向传递。议论到大模子的算计图,存在多个算子,其中注意力算子和线性算子占据了大部分的运行时候。如2.3节所述,系统级优化主要议论大模子中注意算子息争码方法的独有特征。至极是,为了处分大模子解码方法的具体问题,线性算子需要特殊的平铺打算,推测解码方法也被建议以提高愚弄率。此外,在在线管事的高下文中,苦求平素来自多个用户。因此,除了前边研究的优化除外,在线管事还靠近着与异步苦求引起的内存、批处理和诊治关连的挑战。

6.1 推理引擎

咫尺对推理引擎的优化主要在于加速模子上前推理过程。对大模子推理中的主要算子和算计图进行了高度优化。此外,为了在不造谣性能的前提下提高推理速率,推测解码时期也被建议。

6.1.1 图和算计优化

运行时候分析:通过HuggingFace,作家用不同的模子和高下文长度来分析推理运行时候。图15的分析完结标明,注意力算计和线性算计占据了运行时候的绝大部分,它们平素进步推理合手续时候的75%。因此,大部分优化使命都悉力于于提高两个操作的性能。此外,有多个操作符占用了一小部分运行时候,这使得操作符的实施时候支离迫害,加多了CPU端的内核启动本钱。为了处分这个问题,在图算计级别,面前优化的推理引擎完毕了高度领悟的算子。

注意力算计优化:标准的注意力算计(例如,使用Pytorch)包含矩阵Q与矩阵(K)的乘法,这导致时候和空间复杂度与输入序列长度呈现二次增长。如图15所示,注意力算计操作的时候占比跟着高下文长度的加多而加多。这意味着对内存大小和算计能力的要求很高,至极是在处理长序列时。为了处分GPU上标准注意力算计的算计和内存支拨,定制化注意力算计是必不可少的。FlashAttention将总共这个词注意力操作领悟为一个单一的、内存高效的操作,以松开内存调查支拨。输入矩阵(Q, K, V)和注意力矩阵被平铺成多个块,从而放弃了完整数据加载的需要。FlashDecoding开发在Flash Attention的基础上,旨在最大限定地提高解码的算计并行性。由于译码方法的应用,Q矩阵在decoding过程中会退化为一批向量,如果并行度仅限于batch大小维度,则很难填充算计单位。FlashDecoding通过在序列维度上引入并行算计来处分这个问题。天然这会给softmax算计带来一些同步支拨,但它会显耀提高并行性,至极是对于小批量大小和长序列。随后的使命FlashDecoding++不雅察到,在之前的使命中,softmax内的最大值仅动作防护数据溢出的比例因子。然则,动态最大值会导致显耀的同步支拨。此外,大宗实验标明,在典型的大模子(如Llama2, ChatGLM)中,进步99.99%的softmax输入在一定范围内。因此,FlashDecoding++建议基于统计数据提前详情比例因子。这放弃了softmax算计中的同步支拨,使后续操作能够在softmax算计的同期并行实施。

线性算计优化:线性算子在大模子推理、特征投影和前馈神经齐集(FFN)中阐扬着要道作用。在传统神经采聚首,线性算子可以抽象为通用矩阵-矩阵乘法(General Matrix-Matrix Multiplication, GEMM)运算。然则,对于大模子,decoding方法的应用导致维度的彰着造谣,与传统的GEMM使命负载不同。传统GEMM的底层完毕得到了高度优化,主流大模子推理框架(例如,DeepSpeed ,  vLLM,  OpenPPL等)主要调用cuBLAS为线性算子提供的GEMM API接口。

如果莫得针对造谣维数的GEMM明详情制的完毕,decoding过程中的线性算计将会效用低下。在最新版块的TensorRT-LLM中可以不雅察到处分该问题的issue。它引入了专用的通用矩阵向量乘法(General Matrix-Vector Multiplication, GEMV)完毕,潜在地提高了decoding才调的效用。最近的量度FlashDecoding++作念了进一步的创新,在解码才调中处理小批量数据时,处分了cuBLAS和CUTLASS库的低效用问题。该量度的作家启程点引入了FlatGEMM操作的主意,以高度造谣的维度(FlashDecoding++中的维数< 8)来透露GEMM的使命负载。由于FlatGEMM具有新的算计脾性,传统GEMM的平铺战略需要进行修改。作家不雅察到,跟着使命负载的变化,存在两个问题:低并行性和内存调查瓶颈。

为了处分这些问题,FlashDecoding++领受了细粒度平铺战略来提高并行性,并愚弄双缓冲时期来荫藏内存调查蔓延。此外,面前经典大模子(例如,Llama2, ChatGLM)中的线性操作平素具有固定的形势,FlashDecoding++开发了启发式聘请机制。这个机制凭据输入大小在不同的线性运算符之间进行动态地聘请转移。这些选项包括FastGEMV、FlatGEMM和由cuBLAS库提供的GEMM。这种方法确保为给定的线性使命负载聘请最有用的算计操作,从而可能导致更好的端到端性能。

频年来,应用MoE FFN来增强模子能力已成为大模子量度的一种趋势。这种模子结构也对算子优化建议了新的要求。如图15所示,在具有MoE FFN的Mixtral模子中,由于HuggingFace完毕中未优化FFN算计,线性算子在运行时占主导地位。此外,Mixtral领受了GQA注意结构,其造谣了注意力算子的运行时候比例,进一步指出了对优化FFN层进攻需要。MegaBlocks是第一个针对MoE FFN层优化算计的算法。该使命将MoE FFN算计制定为块稀薄操作,并建议了用于加速的定制GPU内核。MegaBlocks专注于MoE模子的有用教练,因此忽略了推理的特征(例如,解码方法)。现存框架正在起劲优化MoE FFN推理阶段的算计。vLLM的官方在Triton中集成了MoE FFN的领悟内核,无缝地放弃了索引支拨。

图片

图14:大模子推理引擎优化分类

图片

图15:多个大模子的推理运行时候分析

图级别的优化:核领悟动作一种流行的图级优化脱颖而出,因为它能够减少运行时候。应用核领悟有三个主要优点:(1)减少内存调查。领悟内核从本色上放弃了中间完结的内存调查,松开了算计操作的内存瓶颈。(2)松开内核启动支拨。对于一些轻量级操作(如残差add),内核启动时候占据了大部分蔓延,内核领悟减少了单个内核的启动。(3)增强并行性。对于那些没稀有据依赖的运算符,当单个内核实施无法填充硬件容量时,通过领悟完毕内核并行是有意的。

核领悟时期被诠释对大模子推理是有用的,具有上述总共优点。FlashAttention将注意力运算符表述成一个单一的内核,放弃了调查注意力完结的支拨。基于注意力算子是内存有限的这一事实,内存调查的减少能有用地滚动为运行时加速。ByteTransformer和DeepSpeed建议将包括残差加法、层模和激活函数在内的轻量级算子领悟到前列性算子中,以减少内核启动支拨。

和DeepSpeed[236]建议将包括残差add、layernorm和激活函数在内的轻量级算子领悟到前边的线性算子中,以减少内核启动支拨。因此,这些轻量级操作符在时候轴上隐匿,险些莫得稀少的蔓延。此外,还领受核领悟来提魁岸模子推理的愚弄率。Q、K和V矩阵的投影变换原来是三个单独的线性运算,并领悟成一个线性运算符部署在当代GPU上。咫尺,核领悟时期一经应用于大模子推理实践中,高度优化的推理引擎在运行时只使用少数领悟核。例如,在FlashDecoding++完毕中,一个transformer块仅集成了七个领悟的内核。愚弄上述运算符和内核领悟优化,FlashDecoding++完毕了在HuggingFace高达4.86倍的加速。

6.1.2 推测解码

推测解码(如投契采样)是一种用于自回首大模子的创新解码时期,旨在提高解码效用,同期不影响输出的质料。这种方法的中枢念念想包括使用一个较小的模子(称为草稿模子)来有用地预计几个后续token,然后使用主义大模子并行考据这些预计。该方法旨在使大模子能够在单个推理平素所需的时候范围内生成多个token。图16高慢了传统自回首解码方法与推测解码方法的比较。表面上,推测解码方法包括两个才调:

1)草稿构建:领受草稿模子,以并行或自回首的方式生成多个后续token,即Draft token。 2)草案考据:愚弄主义模子在单个大模子推理才调入彀算总共草稿token的要求概率,随后按序详情每个草稿token的收受程度。收受率透露每个推理才调收受的草稿token的平均数目,是评估推测解码算法性能的要道目的。

图片

图16:自回首解码(a)和推测解码(b)对比

推测解码确保了输出与自回首解码方法的质料平等。传统解码时期主要使用两个采样方法:greedy sampling和 nucleus sampling。greedy sampling触及在每个解码才调中聘请概率最高的令牌来生成特定的输出序列。推测解码的领先使命,被称为Blockwise Parallel Decoding,旨在确保草草稿token与通过greedy sampling的token完毕精准匹配,从而保合手输出令牌等价。比较之下,nucleus sampling触及从概率散布中抽样token,每次运行都会产生不同的token序列。这种种种性使得nucleus sampling很受接待。为了在推测解码框架内容纳nucleus sampling,一经建议了投契采样时期。投契采样保合手输出散布不变,与nucleus sampling的概轻松质一致,以产生不同的符号序列。形势上,给定一个token序列和一个草稿token序列,投契采样战略以以下概率收受第i个草稿token:

其中庸分别代表来自主义大模子和草稿模子的概率散布。如果第个token被收受,它设定为。另外,它退出草稿token的考据,并从底下的散布中进行的重采样:

基于投契采样,出现了几种变体,旨在考据多个草稿token序列。值得注意的是,在这种情况下,token tree verfier已成为一种庸俗领受的考据战略。这种方法愚弄草稿token集的树状结构透露,并领受树注意力机制来有用地实施考据过程。

在推测解码方法中,草稿token的收受率受到草稿模子的输出散布与原始大模子的输出散布的一致程度的显耀影响。因此,大宗的量度使命都是为了创新草稿模子。DistillSpec顺利从主义大模子中提真金不怕火较小的草稿模子。SSD包括从主义大模子中自动识别子模子(模子层的子集)动作草稿模子,从而放弃了对草稿模子进行单独教练的需要。OSD动态调整草稿模子的输出散布,以匹配在线大模子管事中的用户查询散布。它通过监视来欢快模子的被断绝的草稿token,并使用该数据通过蒸馏来创新草稿模子来完毕这一丝。PaSS建议愚弄主义大模子自己动作草稿模子,将可教练的token(look -ahead token)动作输入序列,以同期生成后续token。REST引入了一种基于检索的推测解码方法,领受非参数检索数据存储动作草稿模子。SpecInfer引入了一种集体晋升调优时期来对都一组草稿模子的输出散布通过主义大模子。Lookahead decoding 包含大模子生成并行的生成n-grams来生成草稿token。Medusa对大模子的几个头进行微调,有意用于生成后续的草稿token。Eagle领受一种称为自回首头的轻量级Transformer层,以自回首的方式生成草稿token,将主义大模子的丰富高下文特搜集成到草稿模子的输入中。

另一项量度侧重于打算更有用的草稿构建战略。传统的方法平素产生单一的草稿token序列,这对通过考据建议了挑战。对此,Spectr主张生成多个草稿token序列,并领受k-sequential草稿聘请时期并发考据k个序列。该方法愚弄推测抽样,确保输出散布的一致性。访佛地,SpecInfer领受了访佛的方法。然则,与Spectr不同的是,SpecInfer将草稿token序列合并到一个“token tree”中,并引入了一个用于考据的树形注意力机制。这种战略被称为“token tree verifier”。由于其有用性,token tree verifier在繁密推测解码算法中被庸俗领受。除了这些起劲除外,Stage Speculative Decoding和Cascade Speculative Drafting(CS Drafting)建议通过将投契解码顺利集成到token生成过程中来加速草稿构建。

对比实验与分析:论文作家通过实验来评估推测解码方法的加速性能。具体来说,作家对该领域的量度进行了全面的追想,并聘请了其中6个一经开源的代码进行量度,分别是:Speculative Decoding (SpD)、Lookahead Decoding (LADE)、REST、Self-speculative Decoding (SSD)、Medusa和Eagle。对于评估数据集,使用Vicuna-80对上述方法进行评估,该数据集包含80个问题,分为10类。这80个问题的平均完结动作输出。对于主义大模子,作家领受了五个主流的开源大模子,分别是Vicuna-7B-V1.3、Vicuna-13B-V1.3、Vicuna-33B-V1.3、LLaMA-2-7B和LLaMA-2-13B。作家展示了这5个大模子的评估目的范围。对于草稿模子,作家对SpD领受了两个个教练好的草稿模子,即LLaMA-68M和LLaMA-160M。对于其他推测解码方法,作家受命它们建议的草稿构建方法和使用他们提供的权重。在评价目的方面,作家使用收受率和加速率,收受率是指收受token数与生成步数之比,加速比是指在详情输出总长度时,原始自回首解码的蔓延与推测解码的蔓延之比。

表5提供了种种推测解码方法的比较,凸起了几个要道不雅察完结:(1) Eagle推崇出优异的性能,在多个大模子上完毕了3.47~3.72倍的端到端加速。为了贯穿它的告捷,作家对Eagle的深切分析揭示了两个要道成分。启程点,Eagle领受自回首方法来解码草稿token,顺利愚弄先前生成的token的信息。其次,Eagle集成了原始大模子和草案模子的先前token的丰富特征,以提高下一个草稿token生成的准确性。(2) token tree verifier被诠释在晋升投契采样方法的性能中是有用的。(3)这些方法完毕的端到端加速通常低于收受率。这种各别是由于与草稿模子关连的生成本钱不可漠视的施行议论而产生的。

图片

表5:实验完结6.2 推理管事系统

推理管事系统的优化主要在于提高处理异步苦求的效用。优化了内存管制以容纳更多的苦求,并集成了高效的批处理和诊治战略以提高系统混沌量。此外,建议了针对散布式系统的优化方法,以充分愚弄散布式算计资源。

图片

图17:推理管事系统分类图6.2.1内存管制

在大模子管事中,KV缓存的存储决定了内存的使用,至极是当高下文长度很万古(参见第2.3节)。由于生成长度不详情,提前分拨KV cache存储空间很难。早期的完毕平素凭据每个苦求的预设最大长度事先分拨存储空间。但是,在远隔苦求生成的时,这种方法会导致存储资源的大宗豪侈。为了处分这个问题,为了减少预分拨空间的豪侈,建议了为每个苦求预计生成长度的上界。

但是,当不存在如斯大的一语气空间时,静态的KV缓存分拨方式仍然是失败的。为了搪塞碎屑化存储,vLLM建议以操作系统的样式,以分页的方式存储KV缓存。vLLM启程点分拨尽可能大的内存空间,并将其平均分裂为多个物理块。当苦求降临时,vLLM以不一语气的方式动态地将生成的KV缓存映射到预分拨的物理块。通过这种方式,vLLM显耀减少了存储碎屑,并在大模子管事中完毕了更高的混沌量。在vLLM的基础上,LightLLM使用了更细粒度的KV缓存存储,减少了不规矩界限产生的豪侈。LightLLM将token的KV缓存动作一个单位来处理,而不是一个块,因此生成的KV缓存老是使预分拨的空间饱和。

面前优化的推理管事系统平素领受这种分页方式来管制KV缓存存储,从而减少冗余KV缓存的豪侈。然则,分页存储导致注意力操作中的内存调查不规矩。对于使用分页KV缓存的注意力算子,这就需要议论KV缓存的假造地址空间与其对应的物理地址空间之间的映射关系。为了提高注意力算子的算计效用,必须对KV缓存的加载模式进行调整,以便捷一语气存储器调查。例如,在vLLM的PagedAttention中,对于K cache,head大小维度的存储结构为16字节的一语气向量,而FlashInfer为KV缓存编排了种种数据布局,并伴跟着符合打算的内存调查决议。注意力算子的优化与页面KV缓存存储的结合仍然是推理管事系统发展中的一个前沿挑战。

6.2.2 一语气批处理

批处理中的苦求长度可能不同,当较短的苦求完成而较长的苦求仍在运行时,会导致愚弄率较低。由于管事场景中的苦求具有异步脾性,因此缓解这种低愚弄率的时候段是有可能的。基于此,一语气批处理时期被建议,以便在一些旧苦求完成后对新苦求进行批处理。ORCA是在大模子管事端第一个这么作念的使命。

每个苦求的算计包含多个迭代,每个迭代透露预填充才调或解码才调。作家建议可以在迭代级别对不同的苦求进行批处理。此使命在线性操作符中完毕迭代级批处理,在序列维度中将不同的苦求劝诱在一齐。因此,与完成的苦求相对应的备用存储和算计资源被实时开释。继ORCA之后,vLLM将该时期扩展到注意力算计,使不同KV缓存长度的苦求能够批处理在一齐。Sarathi、DeepSpeed-FastGen和SarathiServe进一步引入了一种split-and-fuse方法,将预填充请乞降解码苦求批处理在一齐。具体来说,此方法启程点在序列维度上拆分长预填充苦求,然后将其与多个短解码苦求批处理在一齐。该方法平衡了不同迭代之间的使命负载,并通过放弃新苦求的蔓延显耀减少了尾部蔓延。LightLLM也领受了split-and-fuse方法。

6.2.3 Scheduling时期

在大模子管事中,每个苦求的功课长度具有可变性,因此实施苦求的要贯通显耀影响管事系统的混沌量。head-of-line blocking发生在长苦求被赋予优先级时。具体来说,对于长苦求,内存使用会赶快增长,当系统内存容量耗尽时,会导致后续苦求受阻。ORCA和开源框架,包括vLLM和LightLLM,领受简易的先到先管事(FCFS)原则来诊治苦求。DeepSpeed-FastGen则优先议论解码苦求以提高性能。FastServe建议了一种霸占式诊治战略来优化列队陡立问题,完毕大模子管事的低功课完成时候(JCT)。FastServe领受多级反馈队伍(MLFQ)来优先处理剩余时候最短的苦求。由于自动回首解码方法会产生未知的苦求长度,FastServe启程点预计长度,并愚弄跳过劝诱方式为每个苦求找到符合的优先级。与以往的使命不同,VTC研究了大模子推理管事中的刚正性。VTC引入了一个基于token数的本钱函数来量度客户端之间的刚正性,并进一步建议了一个刚正诊治标准来确保刚正性。

6.2.4 散布式系统

为了完毕高混沌量,大模子管事平素部署在散布式平台上。最近的使命还侧重于通过愚弄散布式特征来优化此类推理管事的性能。值得注意的是,预填充是算计密集型的,解码是内存密集型的,splitwise, TetriInfer和DistServe诠释了领悟苦求的预填充息争码才调的效用。这么,两个不同的阶段就可以凭据各自的特质进行孤立的处理。SpotServe打算用于在具有可霸占GPU实例的云上提供大模子管事。SpotServe有用地处理包括动态并行旁边和实例转移在内的挑战,何况还愚弄大模子的自回首脾性来完毕token级别的状况回答。此外,Infinite-LLM将vLLM中的分页KV缓存方法扩展到散布式云环境。

6.3 硬件加速器打算

昔日的量度使命蚁合在优化Transformer架构,至极是优化注意力算子,平素领受稀薄方法来促进FPGA部署。与NVIDIA V100 GPU比较,FACT加速器通过线性运算的夹杂精度量化和算法-硬件协同打算完毕了不凡的能效,而且这些方法不是为生成式大模子量身定制的。

近期的使命,如ALLO凸起了FPGA在管制内存密集型解码阶段方面的上风。强调了模子压缩时期对大模子高效FPGA部署的要害性。相背,DFX侧重于解码阶段优化,但阑珊模子压缩方法,浪漫了可扩展性在更大的模子和更长的输入(最多1.5B模子和256个token)。ALLO开发在这些见识的基础上,进一步提供了一个可组合和可重用的高档合成(High-level Synthesis, HLS)内核库。与DFX比较,ALLO的完毕在预填充阶段展示了不凡的生成加速,在解码时间完毕了比NVIDIA A100 GPU更高的能效和加速。

FlightLLM也愚弄了这些见识,引入了一个可设立的稀薄数字信号处理器(DSP)链,用于种种具有高算计效用的稀薄模式。为了提高存储带宽愚弄率,建议了一种支合手夹杂精度的片上译码决议。FlightLLM在Llama2-7B型号上完毕了比NVIDIA V100S GPU高6.0倍的能效和1.8倍的本钱效益,解码时的混沌量比NVIDIA A100 GPU高1.2倍。

6.4 大模子推理框架对比

作家对比了多个推理框架的性能,如表6所示。使用Llama2-7B(batch size=1,输入长度=1k,输出长度=128)测量推理混沌量。推理管事性能是在ShareGPT数据集上测量的最大混沌量。两者都基于单个NVIDIA A100 80GB GPU。在上述框架中,DeepSpeed、vLLM、LightLLM和TensorRT-LLM集成了推理管事功能,为来自多个用户的异步苦求提供管事。作家还在表格中列出了每个框架的优化。作家还在表中列出了针对每个框架的优化。除了HuggingFace外,总共框架都完毕了operator级别或图优化级别的优化以提高性能,其中一些框架还支合手推测解码时期。请注意,作家测量总共框架的推感性能时,莫得使用推测解码时期。推理混沌量的完结标明,FlashDecoding++和TensorRT-LLM在掩饰主要算子和算计图的优化方面优于其他算法。在推理管事方面,各框架均领受细粒度、不一语气存储方式进行KV缓存,并领受一语气批处理时期提高系统愚弄率。与vLLM和LightLLM不同,DeepSpeed在诊治中优先议论解码苦求,这意味着如果批处理中有敷裕的现存解码苦求,则不会合并新苦求。

图片

表6:开源推理框架性能对比6.5 坚强,建议和改日地点

系统级优化在不造谣精度的同期提高了效用,因此在大模子推理实践中越来越深广。对推理的优化也适用于管事。最近,operator优化一经与施行管事场景细致结合,例如,有意为前缀缓存打算的RadixAttention和加速推测解码考据的tree attention。应用和场景的迭代将不停对operator的发展建议新的要求。

议论到施行推理管事系统中固有的多方面主义,例如JCT、系统混沌量和刚正性,诊治战略的打算相应地变得复杂。在苦求长度不详情的大模子管事领域,现存文件平素依赖于预计机制来促进诊治战略的打算。然则,咫尺的预计器的有用性够不上梦想的标准,这标明在管事诊治战略开发中存在创新和优化的后劲。

7 要道应用场景研究

咫尺的量度在探索跨种种优化级别的高效大模子推理的界限方面取得了要害进展。然则,需要进一步的量度来提魁岸模子在施行场景中的效用。作家为数据级(第4.3节)、模子级(第5.3节)和系统级(第6.5节)的优化时期分析了有但愿的改日地点。在本节中,作家总结了四个要道场景:Agent and Multi-Model Framework、Long-Context LLMs、Edge Scenario Deployment和安Security-Efficiency Synergy,并对它们进行了更庸俗的研究。

Agent and Multi-Model Framework:如4.3章所研究,Agent 和Multi-Model框架的最近使命,通过愚弄大模子的遒劲能力,显耀提高了Agent处理复杂任务和东谈主类苦求的能力。这些框架在加多大模子算计需求的同期,在大模子输出内容的结构中引入了更多的并行性,从而为数据级和系统级优化(如输出组织时期)创造了契机。此外,这些框架天然地引入了一个新的优化级别,即pipeline级别,它具有在该级别上提高效用的后劲。

此外,越来越多的量度趋势侧重于将AI智能体扩展到多模态领域,平素使用多模态大模子(Large multimodal Models, LMM)动作这些Agent系统的中枢。为了提高这些新兴的基于LMM的智能体的效用,为LMM打算优化时期是一个很有出息的量度地点。

Long-Context LLMs:咫尺,大模子靠近着处理越来越长的输入高下文的挑战。然则,自注意力操作(Transformer-style大模子的基本组成部分)推崇出与高下文长度关连的二次复杂度,对最大高下文长度施加了浪漫在教练和推理阶段。种种战略一经被探索了来处分这一浪漫,包括输入压缩(第4.1节)、稀薄注意力(第5.2.2节)、低复杂度结构的打算(第5.1.3节)和注意算子的优化(第6.1.1节)。值得注意的是,具有次二次或线性复杂性的非transformer架构(第5.1.3节)最近引起了量度东谈主员的极大兴趣。

尽管它们效用很高,但与Transformer架构比较,这些新架构在种种能力(如高下体裁习能力和费力建模能力)上的竞争力仍有待测验。因此,从多个角度探索这些新架构的功能并处分它们的局限性仍然是一个有价值的追求。此外,为种种场景和任务详情必要的高下文长度,以及详情将动作改日大模子基础赈济的下一代架构,这一丝至关要害。

Edge Scenario Deployment:尽管提魁岸模子推理的效用一经有了好多使命,但将大模子部署到资源极其有限的角落开荒(如挪动电话)上仍然存在挑战。最近,好多量度东谈主员对具有1B ~ 3B参数的较小话语模子的预教练推崇出了兴趣。这种限制的模子在推理过程中提供了更少的资源本钱,何况与更大的模子比较,具有完毕泛化能力和竞争性能的后劲。然则,开发如斯高效和遒劲的袖珍话语模子的方法仍然莫得得到充分的探索。

一些量度一经开启了这个有但愿的地点。例如,MiniCPM通过沙盒实验来详情最优的预教练超参数。PanGu-π-Pro建议使用来自模子修剪的矩阵和时期来运滚动预教练打磨谢谢的模子权重。MobileLLM在袖珍模子打算中领受了“深而薄”的架构,并建议了跨不同层的权重分享,在不加多稀少内存本钱的情况下加多层数。然则,小模子和大模子之间仍存在性能差距,需要改日的量度来缩小这一差距。改日,进攻需要量度怎样识别角落场景下的模子模范,并探索种种优化方法在打算上的界限。

除了打算较小的模子除外,系统级优化为大模子部署提供了一个有出息的地点。最近一个值得注意的技俩,MLC-LLM告捷地在挪动电话上部署了LLaMA-7B模子。MLC-LLM主要使用领悟、内存权术和轮回优化等编译时期来增强蔓延并造谣推理时间的内存本钱。此外,领受云角落互助时期或打算更复杂的硬件加速器也可以匡助将大模子部署到角落开荒上。

Security-Efficiency Synergy:除了任务性能和效用外,安全性亦然大模子应用中必须议论的要道成分。咫尺的量度主要蚁合在效用优化方面,莫得充分处分安全议论的操作。因此,量度效用和安全性之间的相互作用,并详情面前的优化时期是否会损伤大模子的安全性是至关要害的。如果这些时期对大模子的安全性产生负面影响,一个有但愿的地点是开发新的优化方法或创新现存的方法,以完毕大模子的效用和安全性之间更好的权衡。

8 总结

高效的大模子推理侧重于减少大模子推理过程中的算计、内存调查和内存本钱,旨在优化诸如蔓延、混沌量、存储、功率和动力等效用目的。作家在本综述中提供了高效大模子推理量度的全面追想,建议了要道时期的见识,建议和改日地点。启程点,作家引入了包含数据级、模子级和系统级优化的分层分类法。随后,在这一分类方法的带领下,作家总结每个眉目和子领域的量度。对于模子量化和高效管事系统等老练的时期,作家进行了实验来评估和分析它们的性能。在此基础上,建议了实践建议。为该领域的从业者和量度东谈主员建议建议并详情有出息的量度途径。

备注:昵称-学校/公司-地点/会议(eg.ACL),干预时期/投稿群

id:DLNLPer,谨记备注呦

本站仅提供存储管事,总共内容均由用户发布,如发现存害或侵权内容,请点击举报。