ai对称工具英特尔AI实验室推出了高性能的神经网络压缩工具Distiller

默认分类1年前 (2023)发布 admin

2,037 0 0

近日，英特尔AI 实验室推出了高性能的神经网络压缩工具，便捷地实现了更小更快更高效的神经网络计算。目前在中实现了一系列压缩分析算法，包括稀疏引导算法和低精度近似算法。工具包主要由以下三个部分组成：

一套集成了剪枝、正则化与量化的算法；

一系列分析和评价压缩表现的工具；

以及一系列前沿压缩算法的实现样例。

更小更快更节能

目前的绝大多数神经网络都越来越深，其参数达到了百万量级。如此庞大的模型即使在硬件加速的条件下也是十分消耗资源的计算密集型算法，即使只考虑推理阶段也需要花费较多的时间。在某些低延时的场合，比如说自动驾驶和控制领域这样的处理时间就会造成很多问题。同时在消费电子上较长的延时也会造成用户体验的下降。

大型模型同时也会消耗大量的内存，以及随之而来的算力与能耗，这对于移动设备来说是十分重要的问题。同样对于大型数据中心来说模型的能耗也是不同忽视的问题。同时考虑到存储和传输的限制，神经网络的压缩具有十分重要的现实需求。在精度可以接受的条件下，压缩的越小神经网络需要的计算资源和带宽就越少。由于深度神经网络的权重矩阵具有稀疏性，通过正则化和剪枝以及量化过程可以很好的压缩模型的体量。

稀疏的神经网络模型表示可以被大幅度压缩。目前很多神经网络性能都受制于带宽，这意味着它们的计算性能主要取决于可用的带宽，带宽不足的情况下硬件需要用更多的时间将数据输入到计算单元中。全连接层、RNN和LSTM等典型的结构就受制于带宽。如果能够减小这些层所需要的带宽就能大幅提高它们的速度。

通过修剪模型中的某些权重、核甚至是整个层实现减小带宽提高速度的功能，但同时却不影响算法最终精度的表现，也减小了功耗和延时。最后考虑到读写非片上存储的能耗是片上存储的两个量级以上，如果较小的模型可以保存在片上存储中，可以使性能得到质的飞跃，让延时和能耗也随之降低。所以同时稀疏或者压缩表示时，可以有效提升算法的表现。

工具框架

目前的设计与进行集成，其设计理念如下图所示，的训练与进行交互。在中包含了调度、算法和应用等主要模块以及汇总、日志的辅助功能，在很多常见的科学计算包的基础上利用实现交互功能，基于实现模型和日志信息的展示。

算法

中集成了先进的剪枝和量化算法，帮助用户有效的压缩模型的体量。

剪枝算法主要分为了权重正则化、权重修剪、低精度等三种实现方式，7种具体的方法。

幅度剪枝利用阈值来将每一个权重进行二值化，小于阈值的权重将被设为0，不同的层可以设置不同的权值；

ai对称工具英特尔AI实验室推出了高性能的神经网络压缩工具Distiller