
Origin E6
实现性能、功耗和面积全面优化的 AI 推理
OriginTM E6 是一系列专为智能手机、AR/VR 设备和其他设备中与图像和点云相关的人工智能 (AI) 使用而设计的性能优化的神经处理单元 (NPU) IP 核心。这些高性能产品需要高密度的AI 推理,但也需要在性能、功耗和面积之间达成良好平衡。Origin E6 系列通过优化利用率和减少对外部存储器的要求来优化功耗,同时将延迟降至超低水平。E6 提供从 16 TOPS 至 32 TOPS 的性能。
原生运行:一种新的NPU范式
典型的 AI 加速器通常还是基于CPU(中央处理器)或 GPU(图形处理器)的架构,依靠复杂的软件栈将神经网络转换为一长串基本指令。这些指令往往执行效率低,处理器利用率低(在 20% 到 40% 之间)。艾伯德采用创新技术,将 Origin 设计为专用 NPU,直接使用元数据高效执行神经网络,可实现平均高达 80% 的处理器持续利用率。元数据中包含了每一层的功能(例如卷积或池化)和其他重要细节(例如卷积的大小和形状)。Origin NPU无需对训练好的神经网络作出任何更改,对模型准确度影响极小。此方法可大幅简化软件栈。且艾伯德提供功能强大的、基于 Apache TVM 的软件栈。艾伯德的原生执行范式可简化新模型的采用,并加速产品上市时间。
广泛支持各种神经网络
人工智能是一门快速发展的科学,几乎每天都有新的神经网络发布。艾伯德的 Origin E6 NPU 支持 RNN、CNN、LSTM 和其他类型神经网络, 包括 Inception、MobileNet、YOLO v3、FSRCNN、EfficientNet、Unet 和 Transformer, 而且输入信号分辨率可高达 8K。此外,Origin 还支持定制和专有网络,并为您的设计提供支持未来新网络的能力。
针对特定需求进行优化
虽然市场上有许多通用 AI 处理器,但通用解决方案普遍效率欠佳。通用 AI 处理器通常面积较大,超出特定应用所需的尺寸,同时还会消耗更多的功率。Origin E6 IP 核心针对客户的特定应用领域和功率要求进行了优化。无论是针对特定的单个或系列网络进行性能优化,调整大小满足芯片面积限制,还是通过配置来满足系统功耗要求,E6 都能够提供优化的 PPA(功耗、性能、面积)。艾伯德通常仅需其他 NPU 芯片面积的一半,即可实现卓越性能。在设计过程中,艾伯德与客户密切合作,了解客户的特定应用需求和限制,并在交付 IP 之前提供周期准确的 PPA 估计。
下图客户报告的数据集展示了艾伯德的原生高效架构与优化相结合,带来了显著的性能提升。运行 4K 视频降噪算法时,客户希望能够提高吞吐量。之前使用的 NPU 每秒只能处理几帧 (FPS)。采用艾伯德的 Origin NPU 后,FPS 性能提高了 20 倍,功耗不到之前的一半,PPA 提高了 40 倍以上。
市场领先的能效
艾伯德的 Origin 系列产品具有市场领先的能效,平均能耗值为 18 TOPS/W(采用 TSMC 7 纳米工艺,在 1GHz 系统时钟下以 INT8 精度运行 ResNet50),这里没有用到任何稀疏化、压缩或剪枝技术。艾伯德的产品能够支持所有这些技术,从而进一步提高能效。Origin 多次被评为卓越的节能型 NPU。
经过硅验证并部署于数百万台消费类产品
选择不同的 AI 处理器,可能“成就或毁掉”一款设计。艾伯德的 Origin IP已在先进制程节点中经过硅验证,并已在全球数百万台消费类设备中成功部署。
- 16 至 32 TOPS 性能,性能效率高达 18 TOPS/W
- 高达 16K MACS 的可扩展性能
- 最高支持8K输入分辨率
- 高级激活内存管理
- 低延迟
- 兼容多种 DNN 模型
- 用于神经网络的硬件调度器
- 训练好即可处理模型,无需软件优化
- 使用熟悉的开源平台,如 TFlite
- 以软 IP 提供:可移植到任何工艺
计算能力 | 8K 至 16K INT8 MACS |
多任务 | 同时运行多达 2 个作业 |
功耗效率 | 高效的 18 TOPS/W (INT8) |
神经网络支持 | CNN、RNN、LSTM 和其他神经网络架构 |
层支持 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax 等 |
数据类型 | INT4/INT8/INT10/INT12/INT16 激活值/权重 FP16/BFloat16 激活值/权重 |
量化 | Channel-wise 量化(TFLite 规格) 基于工作负载需求的可选自定义量化 |
延迟 | 确定性能保证 |
内存 | 智能系统内存分配和调度 |
框架 | TensorFlow、TFlite、ONNX |
工作负载 | 能够运行大型 DNN 网络 |
优势
业界领先的性能和功耗效率。
架构可满足多种计算需求。
片上存储和系统 DRAM 协同工作以提高带宽。
大幅减少内存需求。
确定的实时性能。
灵活适应不断变化的应用。
简单的软件栈。
实现与训练好的模型相同的精度。
简化了对最终客户的部署。
好处
- 效率:业界领先的 18 TOPS/W 可实现更高的处理效率和更低的功耗
- 简单性:消除了复杂的编译器,降低了设计复杂度,缩减了成本,加快了上市时间
- 可配置性:可独立配置的构建块实现了设计优化,并能进行适当规模的部署
- 可预测性:确定的 QoS
- 可扩展性:从 16 至 32 TOPS,单个可扩展架构即可满足广泛的应用性能要求
- 可部署性:市场上优秀的 TOPS/mm2,可确保理想的处理/芯片尺寸设计
持续关注
订阅我们的新闻
立即注册,即可收到直接发送到收件箱的有用资源。