
Origin E1
针对特定领域优化的 AI 推理核心
艾伯德 Origin™ E1 是一系列人工智能 (AI) 处理核心,针对家用电器、边缘节点和其他小型消费类设备中常用的神经网络子集进行了单独优化。1系列里的LittleNPU支持always-sensing摄像头,适用于智能手机、智能门铃和安防摄像头等产品。此类产品需要优化的 AI 推理功能,以尽可能降低功耗、芯片面积和系统成本。通过密切关注处理器利用率并消除对外部存储器的需求,Origin E1 减少了芯片面积和系统功耗,同时优化了性能并降低了延迟。E1 核心可为各种网络提供 1 TOPS 的性能。
针对神经网络进行优化
虽然市场上有许多通用神经处理单元 (NPU),但通用解决方案普遍效率欠佳。艾伯德 E1 针对特定神经网络进行了优化,可大幅缩减 NPU 的面积和功耗,这一点对于成本和功率受限的设备至关重要。
Origin E1 系列产品支持多种常见神经网络的组合,包括ResNet 50 V1、ResNet 50 V2、Inception V3、RNN-T、MobileNet V1、MobileNet SSD、BERT、EfficientNet、FSR CNN、CPN、CenterNet、Unet、YOLO V3 和 ShuffleNet2。同时也支持许多其他神经网络。
Always-sensing NPU Support
与always-listening的音频应用相似,always-sensing的摄像头可以实现更自然、无缝的用户体验。然而,摄像头数据存在质量、丰富性和隐私方面的问题,需要专门的人工智能处理。为了处理始always-sensing数据,原始设备制造商(OEMs)运用专门的 “LittleNPU” AI处理器。Expedera的E1系列已经针对主要OEMs在始终感应应用中使用的低功耗、高质量神经网络进行了优化,同时确保低功耗(通常仅为10-20mW),并将所有摄像头数据保留在LittleNPU子系统内,与设备安全实施密切配合,以保护用户数据。Expedera的LittleNPU解决方案目前已投放市场。
原生执行:NPU 新范式
典型的 AI 加速器通常重新构建 CPU(中央处理器)或 GPU(图形处理器)的用途,依靠复杂的软件栈将神经网络转换为一长串基本指令。这些指令往往执行效率低下,处理器利用率低,在 20% 到 40% 之间。艾伯德采用创新方法,将 Origin 设计为专用 NPU,直接使用元数据高效执行神经网络,可实现平均高达 80% 的处理器持续利用率。元数据中包含了每一层的功能(例如卷积或池化)和其他重要细节(例如卷积的大小和形状)。无需对经过训练的神经网络作出任何更改,对模型准确度也无明显影响。此方法可大幅简化软件栈,且艾伯德提供功能强大的、基于 Apache TVM 的软件栈。艾伯德的原生执行范式可简化新模型的采用,并加速产品上市时间。
市场领先的能效
理解不同 NPU 之间的相对能效可能很复杂。艾伯德的 Origin 系列产品具有市场领先的能效,平均能耗值为 18 TOPS/W(假设采用 TSMC 7 纳米工艺,在 1GHz 系统时钟下以 INT8 精度运行 ResNet50)。未应用稀疏化、压缩或剪枝技术——尽管艾伯德的产品支持所有这些技术,可进一步提高能效。Origin 多次被第三方和客户评为卓越的节能型 NPU。以 E1 为例,其典型平均功耗值为 55mW,或者更低。
经过硅验证并部署于数百万台消费类产品
选择不同的 AI 处理器,可能“成就或毁掉”一款设计。艾伯德的 Origin 架构已在先进制程节点中经过硅验证,并已在全球数百万台消费类设备中成功部署。
- 1 TOPS 性能
- 18 TOPS/W 典型功耗 (7nm)
- >80% 平均利用率
- 对片上内存要求极低甚至无要求
- 针对具体工作负载调整
- 训练好即可处理模型;无需软件优化
- 高级激活函数内存管理
- 低延迟
- 硬件调度器
- 支持标准的神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax、双线性插值等
- 训练好即可处理模型,无需软件优化
- 使用熟悉的开源平台,包括 TFlite
计算能力 | 1 TOPS |
功耗效率 | 高效的 18 TOPS/W (INT8) |
神经网络支持 | ResNet 50 V1, ResNet 50 V2, Inception V3, RNN-T, MobileNet V1, MobileNet SSD, BERT, EfficientNet, FSR CNN, Unet, YOLO V3, ShufleNet2, and others |
作业数 | 单 |
层支持 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax、双线性插值等 |
数据类型 | INT8/INT16 激活值 INT8 权重 |
量化 | Channel-wise 量化(TFLite 规格) 基于工作负载需求的可选自定义量化 |
延迟 | 已针对最小延迟进行了优化,提供确定保证。 |
内存 | 智能片上动态内存分配算法 |
框架 | TensorFlow, TFlite, ONNX |
优势
业界领先的性能和功耗效率。
架构可满足多种计算需求。
大幅降低内存需求,无需片外 DRAM
大幅减少内存需求。
确定的实时性能。
灵活适应不断变化的应用。
简单的软件栈。
实现与训练好的模型相同的精度。
简化了对最终客户的部署。
好处
- 效率:业界领先的 18 TOPS/W 可实现更高的处理效率和更低的功耗
- 简单性:消除了复杂的编译器,降低了设计复杂度,缩减了成本,加快了上市时间
- 可配置性:可独立配置的构建块实现了设计优化,并能进行适当规模的部署
- 可预测性:确定的 QoS
- 可部署性:市场上优秀的 TOPS/mm2,可确保理想的处理/芯片尺寸设计
持续关注
订阅我
们的新闻
立即注册,
即可收到直接发送到收件箱
的有用资源