杏彩体育平台2080 Ti就能跑70B大模型上交大新框架让LLM推理增速11倍

2024-04-08 公司动态已读 10

　　杏彩体育平台2080 Ti就能跑70B大模型上交大新框架让LLM推理增速11倍原本需要一张16万元的80G A100干的活，现在只需要一张不到2万元的24G 4090就够了！

　　IPADS实验室推出的开源推理框架PowerInfer，让大模型推理速度加快了11倍。

　　而且不用量化，就用FP16精度，也能让40B模型在个人电脑上运行；如果加入量化，2080 Ti也能流畅运行70B模型。

　　结合大模型的独特特征，通过CPU与GPU间的混合计算，杏彩注册PowerInfer能够在显存有限的个人电脑上实现快速推理。

　　相比于llama.cpp，PowerInfer实现了高达11倍的加速，让40B模型也能在个人电脑上一秒能输出十个token。

　　PowerInfer一经发布就引起热烈反响，不到24小时就获得了500+星标，其中还有一颗来自llama.cpp的作者Gerganov。

　　在搭载x86 CPU和NVIDIA GPU的消费级硬件平台上，PowerInfer以参数量从7B到175B的一系列LLM模型为基准，杏彩官网登录对PowerInfer的端到端推理速度进行了测试，并和同平台上性能最好的推理框架llama.cpp进行了对比。

　　借助PowerInfer，当今的消费级平台可以流畅运行30-40B级别的LLM，并以可以接受的速度运行70B级别的LLM。

　　△ PowerInfer在不同模型中不同输出长度下平均生成token速度测试图，纵坐标为加速比，每根柱状图上标注的数字代表了每秒钟能够生成的token数量

　　模型量化是端侧LLM推理非常常用的技术，PowerInfer也支持了INT4量化模型的推理。

　　在PC-Low这种中低端PC上，PowerInfer可以流畅运行30-70B规模的模型，并实现平均5.01倍，最高8.00倍的速度提升，这主要得益于INT4量化后模型大部分热神经元得以放置在显存中。

　　△ PowerInfer在INT4量化模型中的推理速度，纵坐标为加速比，每根柱状图上标注的数字代表了每秒钟能够生成的token数量

　　当输入长度为64时，PowerInfer对A100的速度差距从93%-94%缩小到了28%-29%；在输入长度为1的纯生成场景中，这一差距会被进一步缩小到低至18%。

　　这代表着PowerInfer借助稀疏激活和CPU/GPU混合推理，极大地弥合了消费级显卡到顶尖服务端计算卡的推理速度差距。

　　PowerInfer实现高速推理的秘诀，在于充分利用了稠密模型存在的高局部性的稀疏激活，并与CPU和GPU的运算特点进行了充分结合。

　　一个有趣的事实是：像OPT、LLaMA(ReLU)这样被视为稠密模型的LLM，同样存在稀疏激活的特征。

　　和MoE模型中一个输入token只需要激活FFN layer其中一个或者两个专家模块类似，以OPT模型的稠密FFN层为例，只需要激活一小部分(实验显示约10%)神经元即可保证输出的正确性。

　　MoE模型可以在专家FFN层之前通过路由模块将输入分发给其中一个或者两个专家进行计算，那么稠密模型中的稀疏激活又该如何路由或者在计算之前就知道哪些专家神经元会对结果产生贡献呢？

　　在模型开始服务前，PowerInfer首先会对模型进行离线分析，通过将模型在通用数据集中进行推理获取每一层输入与激活神经元之间的对应关系，进而为稠密模型每一层训练一个小的预测路由模块来预测每一个输入会激活的神经元，只计算路由激活的神经元（专家）。

　　稀疏激活的另一个有趣事实是，尽管对于不同的输入token，激活的神经元分布存在差异；但如果在足够多的数据上进行推理，并将每次激活的分布叠加，PowerInfer发现少部分神经元总体上被激活的概率更高。

　　也就是说，统计意义上大模型神经元的激活符合Power Law分布(Power Law分布是一种统计规律，表示少数事件的发生频率远高于大量其他事件)。

　　如下图(a)所示，对于OPT-30B和LLaMA(ReGLU)-70B两个模型里的某一层FFN网络，统计意义上26%和43%的神经元分别贡献了80%的激活。

　　因此，当只考虑对最终激活有贡献的运算时，LLM具有推理局部性：对权重的访问倾向于集中在一定的区域，而不是均匀分布在所有的神经元上。

　　在推理运算中它显现为程序的局部性：对内存空间的访问倾向于集中在一定的区域，而不是均匀分布在整个内存空间。

　　在常见的个人电脑中，GPU具有较少的显存和更强的计算能力，适合处理频繁访问且计算强度高的任务；而CPU拥有更大的内存容量但相对较弱的算力，适合处理少量访问且计算强度低的任务。

　　因此，理想情况下，一小部分经常访问的神经元应该存储在显存中，相比之下更大、访问频率更低的神经元更适合存储在内存中，由CPU进行计算。

　　根据上述神经元的Power Law和由此产生的局部性，PowerInfer通过提前静态分析每一个神经元的冷热性，将少量的热神经元加载在GPU显存上，剩余的冷神经元加载到CPU的内存中。

　　以下图为例，对于某一层的输入，PowerInfer会首先预测该输入会激活神经元为3，4，5。

　　具体以下图的例子来说，CPU上会计算第四个神经元，GPU上会计算第三个、第五个神经元，然后再GPU上对两边的计算结果进行合并。

　　总体而言，PowerInfer利用基于稠密模型的稀疏激活及其引入的局部性特性，开发出了一种创新的CPU/GPU混合推理引擎。

　　在接入一个大型语言模型（LLM）时，PowerInfer首先在离线阶段对模型的预测路由模块进行训练，并深入分析模型的激活特征。

　　在在线推理阶段，CPU和GPU分别处理存储在其内存中的神经元，随后在GPU上对这些独立计算的结果进行高效合并。

　　现有的云端CPU也有强大的AMX计算单元支持，通过利用CPU、GPU间的异构特征，可以乐观地认为PowerInfer能够使用更少的高端计算卡，做到更高的服务吞吐。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。