
Origin E2
优化功耗和面积的最佳AI 推理引擎
OriginTM E2 系列 IP是业内先进的针对功耗和面积进行了优化的神经处理单元 (NPU),适用于智能手机和各类边缘电子设备。Origin E2 系列密切关注处理器利用率和内存要求,从而降低系统功耗,优化性能并减少延迟。E2 的性能可灵活配置,支持 1 TOPS 到 20 TOPS 的各种应用。
原生运行:一种新的NPU范式
典型的 AI 加速器通常还是基于CPU(中央处理器)或 GPU(图形处理器)的架构,依靠复杂的软件栈将神经网络转换为一长串基本指令。这些指令往往执行效率低,处理器利用率低(在 20% 到 40% 之间)。艾伯德采用创新技术,将 Origin 设计为专用 NPU,直接使用元数据高效执行神经网络,可实现平均高达 80% 的处理器持续利用率。元数据中包含了每一层的功能(例如卷积或池化)和其他重要细节(例如卷积的大小和形状)。Origin NPU无需对训练好的神经网络作出任何更改,对模型准确度影响极小。此方法可大幅简化软件栈。且艾伯德提供功能强大的、基于 Apache TVM 的软件栈。艾伯德的原生执行范式可简化新模型的采用,并加速产品上市时间。
市场领先的能效
要理解不同 NPU 之间的相对能效不是一件简单的事情。艾伯德的 Origin 系列产品具有市场领先的能效,平均能耗值为 18 TOPS/W(采用 TSMC 7 纳米工艺,在 1GHz 系统时钟下以 INT8 精度运行 ResNet50),这里没有用到任何稀疏化、压缩或剪枝技术。艾伯德的产品能够支持所有这些技术,从而进一步提高能效。Origin 多次被评为卓越的节能型 NPU
在下面来自客户报告的示例中,客户将艾伯德 NPU 的功耗与之前使用的相同神经网络 (NN) 的 NPU 解决方案进行了对比。两款 NPU 都使用相同的制成,这样的直接比较能够显示出艾伯德 NPU 的真实节能数据。结果显示,在不牺牲精度、尺寸或性能的前提下,艾伯德 NPU 可节能 50% 以上。
广泛支持各种神经网络
人工智能是一门快速发展的科学,几乎每天都有新的神经网络发布。艾伯德的 Origin E6 NPU 支持 RNN、CNN、LSTM 和其他类型神经网络, 包括 Inception、MobileNet、YOLO v3、FSRCNN、EfficientNet、Unet 和 Transformer, 而且输入信号分辨率可高达 8K。此外,Origin 还支持定制和专有网络,并为您的设计提供支持未来新网络的能力。
针对特定需求进行优化
虽然市场上有许多通用 AI 处理器,但通用解决方案普遍效率欠佳。通用 AI 处理器通常面积较大,超出特定应用所需的尺寸,同时还会消耗更多的功率。Origin E2 IP 核心针对客户的特定应用领域和功率要求进行了优化。无论是针对特定的单个或系列网络进行性能优化,调整大小满足芯片面积限制,还是通过配置来满足系统功耗要求,E2 都能够提供优化的 PPA(功耗、性能、面积)。艾伯德通常仅需其他 NPU 芯片面积的一半,即可实现卓越性能。在设计过程中,艾伯德与客户密切合作,了解客户的特定应用需求和限制,并在交付 IP 之前提供周期准确的 PPA 估计。
经过硅验证并部署于数百万台消费类产品
选择不同的 AI 处理器,可能“成就或毁掉”一款设计。艾伯德的 Origin IP已在先进制程节点中经过硅验证,并已在全球数百万台消费类设备中成功部署。
- 高效性能 18 TOPS/W
- 0.5 至 10K INT8 MACS 的可扩展性能
- 可在片上处理实时高清视频和图像
- 高级激活内存管理
- 低延迟
- T可针对特定工作负载进行调整
- 用于神经网络的硬件调度器
- 支持标准的神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、softmax、双线性插值
- 训练好即可处理模型,无需软件优化
- 使用熟悉的开源平台,如 TFlite
- 以软 IP 提供:可移植到任何工艺
计算能力 | 0.5K 至 10K INT8 MACS |
功耗效率 | 高效的 18 TOPS/W (INT8) |
作业数 | 单 |
神经网络支持 | CNN, RNN 和其他神经网络架构 |
层支持 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax、双线性插值等 |
数据类型 | INT4/INT8/INT16 激活值/权重 & 激活值/权重 |
量化 | Channel-wise 量化(TFLite 规格) |
延迟 | 已针对最小延迟进行了优化,提供确定保证。 |
内存 | 智能片上动态内存分配算法 |
框架 | TensorFlow、TFlite、ONNX |
工作负载 | 可在片上处理 4K 视频和 8K 图像 |
优势
业界领先的性能和功耗效率(高达 18 TOPS/W)
架构可满足多种计算需求。
大幅降低内存需求,无需片外 DRAM。
无任何变动即可运行训练好的模型,并且无需依赖硬件的优化。
确定的实时性能
改进了工作负载的性能,同时仍能运行多种模型。
简单的软件栈。
实现与训练好的模型相同的精度。
简化了对最终客户的部署。
好处
- 效率:业界领先的 18 TOPS/W 可实现更高的处理效率和更低的功耗
- 简单性:消除了复杂的编译器,降低了设计复杂度,缩减了成本,加快了上市时间
- 可配置性:可独立配置的构建块实现了设计优化,并能进行适当规模的部署
- 可预测性:确定的 QoS
- 可扩展性:从 1 至 20 TOPS,单个可扩展架构即可满足广泛的应用性能要求
- 可部署性:市场上优秀的 TOPS/mm2,可确保理想的处理/芯片尺寸设计
持续关注
订阅我们的新闻
立即注册,即可收到直接发送到收件箱的有用资源。