所有神经网络都包含类似的组成部分,包括神经元、突触、权重、偏置和函数。但是根据必须处理的操作次数、权重和激活函数,每个网络都有独特的需求。这一点在对比常见网络时十分明显,如下图所示。尽管如此,在边缘人工智能 (AI) 部署的最初浪潮中,许多原始设备制造商 (OEM) 选择了通用神经处理单元 (NPU)。这些 NPU 的通用特性意味着它们可以支持各种网络及其所有底层需求。但是这种一刀切的方案很少是最有效的解决方案。这是因为通用 NPU 通常比特定应用的所需尺寸大得多,会消耗更多的功率。

图 1 绘制了 5 种常见 NN(ResNet 50、Yolo V3、Unet、FSRCNN、MobileBERT)的操作数、权重和激活数,可以很容易地看出工作负载处理要求的可变性。
在边缘设备上部署合适尺寸的 NPU 面临的主要挑战之一是适当地解决常用神经网络 (NN) 提供的各种处理工作负载。下图说明了这一点。绘制 5 个常见的神经网络(ResNet 50、Yolo V3、Unet、FSRCNN、MobileBERT)的操作次数、权重和激活函数,可以很容易地看出其可变性。
一刀切的人工智能处理效率低下,这对家用电器和门铃摄像头等小型应用的制造商产生了重大影响,所有这些应用都对成本高度敏感。OEM 可以使用人工智能来支持大量新的使用案例。但是,通用 NPU 需要大量硅面积和昂贵的外部储存器,这样部署先进的 AI 处理就可能会变得很困难。然而家用电器和门铃一般不需要大量处理——大概只需要 1 TOPS(每秒万亿次操作)。但即使速度为 1 TOPS,与专用版本相比,低效处理也会使通用 NPU 的尺寸增加两到三倍。NPU 尺寸增大会直接导致 BOM 成本增加,这在每一分钱都要精打细算的情况下是无法实现的。
OEM 告诉我们,为了让他们的产品能够提供真正的人工智能增强用户体验,通用 NPU 的固有开销无法满足其需求。他们需要绝对最小的 NPU,以最大程度满足他们的需求,并要将成本保持在绝对最低水平。他们正在寻找为其特定用例量身定制的 NPU,这种 NPU 应做到开销绝对最小,并且需要很少(理想情况下不需要)的外部内存。简而言之,对于成本敏感型家用电器和其他创新型家居应用,大小(以及扩展成本)是 NPU 部署的主要驱动因素。
而艾伯德全新 OriginTM E1 产品系列正好可满足上述需求。我们已经调整了经过硅验证的 Origin 架构,以提供针对特定神经网络(如 ResNet50、YOLO、Unet、FSRCNN、Inception、BERT、MobileNet、EfficientNet 等)优化的最小、最节能的 1 TOPS 引擎。为一小组网络优化引擎即可将通用 NPU 的大小和功率开销减少 3 倍之多。Origin E1 引擎为应用提供尽可能最小的 NPU,消耗最少的功率,并保持 80% 以上的平均利用率,几乎不需要或完全不需要外部存储器。与所有 Origin 产品一样,艾伯德将 E1 作为软 IP 提供,适用于任何工艺技术。Origin 在 800 多万台消费设备中得到了现场验证。
需要尽可能小的引擎吗? 联系我们,说明您的具体需求,我们将与您合作,根据您的独特需求定制我们的 IP。