
Origin E8
适用于高要求的场景的高性能 AI 推理引擎
艾伯德 Origin™ E8 神经处理单元 (NPU) AI 推理引擎系列产品专为汽车/ADAS 和数据中心应用等性能密集型应用而设计。Origin E8 的性能范围从 32 TOPS 到 128 TOPS,在计算机视觉、点云检测、图像分类和目标检测等与图像相关的任务中表现卓越。
多线程支持
在高性能应用中,OEM 厂商愈加需要能够同时高效运行多个神经网络 (NN) 的 NPU。Origin E8 系列产品旨在实现多线程支持,更好地利用硬件资源并降低系统成本。
广泛支持各种神经网络
人工智能是一门快速发展的科学,几乎每天都有新的神经网络发布。艾伯德的 Origin E6 NPU 支持 RNN、CNN、LSTM 和其他类型神经网络, 包括 Inception、MobileNet、YOLO v3、FSRCNN、EfficientNet、Unet 和 Transformer, 而且输入信号分辨率可高达 8K。此外,Origin 还支持定制和专有网络,并为您的设计提供支持未来新网络的能力。
原生运行:一种新的NPU范式
典型的 AI 加速器通常还是基于CPU(中央处理器)或 GPU(图形处理器)的架构,依靠复杂的软件栈将神经网络转换为一长串基本指令。这些指令往往执行效率低,处理器利用率低(在 20% 到 40% 之间)。艾伯德采用创新技术,将 Origin 设计为专用 NPU,直接使用元数据高效执行神经网络,可实现平均高达 80% 的处理器持续利用率。元数据中包含了每一层的功能(例如卷积或池化)和其他重要细节(例如卷积的大小和形状)。Origin NPU无需对训练好的神经网络作出任何更改,对模型准确度影响极小。此方法可大幅简化软件栈。且艾伯德提供功能强大的、基于 Apache TVM 的软件栈。艾伯德的原生执行范式可简化新模型的采用,并加速产品上市时间。
针对特定需求进行优化
虽然市场上有许多通用 AI 处理器,但通用解决方案普遍效率欠佳。通用 AI 处理器通常面积较大,超出特定应用所需的尺寸,同时还会消耗更多的功率。Origin E8 系列 IP 核心针对客户的特定应用领域和功率要求进行了优化。无论是针对特定的单个或系列网络进行性能优化,调整大小满足芯片面积限制,还是通过配置来满足系统功耗要求,E8 都能够提供优化的 PPA(功耗、性能、面积)。艾伯德通常仅需其他 NPU 芯片面积的一半,即可实现卓越性能。在设计过程中,艾伯德与客户密切合作,了解客户的特定应用需求和限制,并在交付 IP 之前提供周期准确的 PPA 估计。
市场领先的能效
理解不同 NPU 之间的相对能效可能很复杂。艾伯德的 Origin 系列产品具有市场领先的能效,平均能耗值为 18 TOPS/W(假设采用 TSMC 7 纳米工艺,在 1GHz 系统时钟下以 INT8 精度运行 ResNet50)。未应用稀疏化、压缩或剪枝技术——尽管艾伯德的产品支持所有这些技术,可进一步提高能效。Origin 多次被评为卓越的节能型 NPU。
经过硅验证并部署于数百万台消费类产品
选择不同的 AI 处理器,可能“成就或毁掉”一款设计。艾伯德的 Origin IP已在先进制程节点中经过硅验证,并已在全球数百万台消费类设备中成功部署。
- 32 至 128 TOPS,性能效率高达 18 TOPS/W
- 16K 至 64K INT8 MACS
- 同时运行多达 8 个作业
- 高级激活内存管理
- 低延迟
- 可预测的确定性能
- 兼容多种 DNN 模型
- 用于神经网络的硬件调度器
- 训练好即可处理模型,无需软件优化
- 使用熟悉的开源平台,如 TFlite
- 以软 IP 提供:可移植到任何工艺
计算能力 | 16K 至 64K INT8 MACS |
多任务 | 同时运行多达 8 个作业 |
功耗效率 | 高效的 18 TOPS/W (INT8) |
神经网络支持 | CNN、RNN、LSTM 和其他神经网络架构 |
层支持 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax 等 |
数据类型 | INT4/INT8/INT10/INT12/INT16 激活值/权重 FP16/BFloat16 激活值/权重 |
量化 | Channel-wise 量化(TFLite 规格) |
延迟 | 确定性能保证 |
内存 | 先进系统内存分配和虚拟化调度 |
框架 | TensorFlow、TFlite、ONNX |
工作负载 | 能够运行大型 DNN 网络 |
Advantages
业界领先的性能和功耗效率。
采用专门的架构,旨在以最高效率支持要求苛刻的工作负载。
降低多种模型的硬件需求
大幅减少内存需求。
确定的实时性能
灵活、经得起未来考验的支持。
简单的软件栈。
实现与训练好的模型相同的精度。
简化了对最终客户的部署
好处
- 效率:业界领先的 18 TOPS/W 可实现更高的处理效率和更低的功耗
- 简单性:消除了复杂的编译器,降低了设计复杂度,缩减了成本,加快了上市时间
- 可配置性:可独立配置的构建块实现了设计优化,并能进行适当规模的部署
- 可预测性:确定的 QoS
- 可扩展性:从 16 至 128 TOPS,单个可扩展架构即可满足广泛的应用性能要求
- 可部署性:市场上优秀的 TOPS/mm2,可确保理想的处理/芯片尺寸设计
持续关注
订阅我们的新闻
立即注册,即可收到直接发送到收件箱的有用资源。