Origin E8
用于打造最高性能系统的 AI 推理
从数据中心到自动驾驶汽车,最严苛的 AI 应用需要高性能的 NPU,同时延迟也要保持最低。Origin™ E8 采用高度可定制的架构,单核性能可以扩展到 128 TOPS,而多核性能可扩展至 PetaOps。
顶级性能产品
Origin E8 是专为性能密集程度最高的应用设计的系列 NPU IP 推理核心,包括汽车和数据中心应用。E8 可以同时运行多个网络而上下文切换损耗为零,其在需要高性能、低延迟和高效利用处理器时表现出色。与依靠平铺技术来扩展性能的其他 IP 不同,E8 单核性能高达 128 TOPS,可以为最先进的 LLM 和 ADAS 实现提供所需的计算能力,平铺技术会带来相关的功耗、内存共享和面积损失。
创新架构
Origin E8 神经引擎采用艾伯德基于数据包的独特架构,其效率远超基于层的通用架构。这款架构可以跨层并行执行任务,优化资源利用率,带来确定的性能。此外还不需要针对特定硬件进行优化,客户无需更改就可以运行其训练好的神经网络,而不牺牲模型准确度。这种创新的方法大大提升了性能,同时降低了功耗、面积和延迟。
选择您需要的功能
定制带来诸多好处,包括提高了性能,降低了延迟,减小了功耗,以及杜绝了芯片面积浪费。艾伯德在设计阶段与客户合作,了解其用例、PPA 目标和部署需求。借助于上述信息,我们将 Origin IP 配置成一种完美适配具体应用的定制解决方案。
市场领先的 18 TOPS/W
可持续功耗效率是 AI 部署获得成功的关键。Origin NPU IP 一直被称为市场上最为节能的架构之一,其市场领先的可持续功耗达到 18 TOPS/W。
高效的资源利用率
Origin IP 单核性能可以从 GOPS 扩展到 128 TOPS。这款架构没有低性能平铺式 AI 加速器引擎面临的内存共享、安全和面积损耗问题。Origin NPU 的平均可持续利用率达到 80%,而行业标准仅为 20-40%,这避免了芯片面积浪费。
基于 TVM 的完整软件栈
Origin 采用基于 TVM 的完整软件栈。TVM 是广受全球 OEM 制造商信赖和使用的软件。它易于使用,可以导入训练好的网络,并提供各种量化选项、自动化完成、编译、估算器和分析工具。此外还支持多作业 API。
成功部署在 1000 万台设备上
质量是任何产品获得成功的关键。Origin IP 采用多先进节点设计,已成功部署在 1000 多万台消费类设备上。
用例
汽车定制网络部署
一家电动车 OEM 制造商准备开发自己的 ADAS 处理器,经过优化后,这款处理器需要同时运行标准神经网络和内部开发的神经网络,并且可以在流片后灵活部署新的网络。在测试了来自多家供应商的十几个不同平台之后,这家制造商称艾伯德的 Origin IP 为“市场一流产品”。测试包括高达 8K 的输入分辨率以及 100 至 500 TOPS 的计算能力,主要关注最低的确定延迟和最低的 DDR 内存带宽。
|
|
|
|
|
|
|
|
计算能力 | 16K 至 64K INT8 MAC |
多任务 | 同时运行超过 10 项作业 |
功耗效率 | 性能效率达 18 TOPS/W;无需剪枝、稀疏化或压缩(尽管支持) |
支持的网络示例 | Llama2-7B、YOLO v3、YOLO V5、RetinaNet、Panoptix Deeplab、PlainLite、ResNext、ResNet 50、Inception V3、RNN-T、MobileNet V1、MobileNet SSD、BERT、EfficientNet、FSR CNN、CPN、CenterNet、Unet、ShuffleNet2、Swin、SSD-ResNet34、DETR 等 |
性能示例 | YOLO v3 (608 x 608):626 IPS,115.6 IPS/W(N7 制程,1GHz,未应用稀疏化/剪枝/压缩技术) |
层支持 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax 等。可编程通用浮点函数,包括 Sigmoid、Tanh、Sine、Cosine、Exp 等。 |
数据类型 | INT4/INT8/INT10/INT12/INT16 激活值/权重 |
量化 | Channel-wise 量化(TFLite 规格) 软件工具链支持艾伯德、客户提供或第三方进行的量化 |
延迟 | 确定性能保证,无背压 |
框架 | 支持 TensorFlow、TFlite、ONNX 等 |