Origin E2
适合 AI 推理的均衡性能
设备端 AI 是许多新设计的必备要素。芯片架构师寻找的是支持变换器和稳定扩散等最新 AI 技术,同时在性能、低功耗和最低延迟之间实现平衡的解决方案
边缘 AI 的理想之选
Origin™ E2 系列 IP 核心是针对功耗和面积进行了优化的神经处理单元 (NPU),专为智能手机和边缘节点而设计。支持高达 4K 及以上分辨率的视频、音频和基于文本的神经网络,包括公共、定制和专有网络。
创新架构
Origin E2 神经引擎采用艾伯德基于数据包的独特架构,其效率远超基于层的通用架构。这款架构可以跨层并行执行任务,优化资源利用率,带来确定的性能。此外还不需要针对特定硬件进行优化,客户无需更改就可以运行其训练好的神经网络,而不牺牲模型准确度。这种创新的方法大大提升了性能,同时降低了功耗、面积和延迟。
选择您需要的功能
定制带来诸多好处,包括提高了性能,降低了延迟,减小了功耗,以及杜绝了芯片面积浪费。艾伯德在设计阶段与客户合作,了解其用例、PPA 目标和部署需求。借助于上述信息,我们将 Origin IP 配置成一种完美适配具体应用的定制解决方案。
市场领先的 18 TOPS/W
可持续功耗效率是 AI 部署获得成功的关键。Origin NPU IP 一直被称为市场上最为节能的架构之一,其市场领先的可持续功耗达到 18 TOPS/W。
高效的资源利用率
Origin IP 单核性能可以从 GOPS 扩展到 128 TOPS。这款架构没有低性能平铺式 AI 加速器引擎面临的内存共享、安全和面积损耗问题。Origin NPU 的平均可持续利用率达到 80%,而行业标准仅为 20-40%,这避免了芯片面积浪费
基于 TVM 的完整软件栈
Origin 采用基于 TVM 的完整软件栈。TVM 是广受全球 OEM 制造商信赖和使用的软件。它易于使用,可以导入训练好的网络,并提供各种量化选项、自动化完成、编译、估算器和分析工具。此外还支持多作业 API。成功部署在 1000 万台设备上
质量是任何产品获得成功的关键。Origin IP 采用多先进节点设计,已成功部署在 1000 多万台消费类设备上。
用例
更好的智能手机用户体验
全球领先的智能手机制造商之一想在其下一代平台上部署 4K 视频微光去噪 AI 算法。其现有世代的 NPU 一秒内只能处理几帧图像 (FPS),完全不能胜任这项工作。这家制造商选择了艾伯德的 Origin NPU IP,因为这款产品超出了所有预期,而且性能优于其评估的其他所有 NPU。艾伯德产品将 FPS 提高了 20 倍之多,其功耗还不到前 NPU 的一半,同时将 PPA 提高了 40 倍,这样制造商就可以交付具有差异化竞争力的智能手机。Origin 令人印象深刻的性能提升和功耗效率源于其高效的架构和用例定制开发。这家制造商在其取得成功的一系列产品中都内置了 Origin IP。
|
|
|
|
|
|
计算能力 | 0.5K 至 10K INT8 MAC |
多任务 | 同时运行多项作业 |
功耗效率 | 性能效率达 18 TOPS/W;无需剪枝、稀疏化或压缩(尽管支持) |
支持的网络示例 | ResNet、MobileNet、MobileNet SSD、Inception V3、RNN-T、BERT、EfficientNet、FSR CNN、CPN、CenterNet、Unet、YOLO V3、YOLO V5、ShuffleNet2 等 |
性能示例 | MobileNet V1 (226 x 226):8750 IPS,13,482 IPS/W(N7 制程,1GHz,未应用稀疏化/剪枝/压缩技术) |
层支持 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax 等。可编程通用浮点函数,包括 Sigmoid、Tanh、Sine、Cosine、Exp 等。 |
数据类型 | INT4/INT8/INT10/INT12/INT16 激活值/权重 FP16/BFloat16 激活值/权重 |
量化 | Channel-wise 量化(TFLite 规格) 软件工具链支持艾伯德、客户提供或第三方进行的量化 |
延迟 | 确定性能保证,无背压 |
框架 | 支持 TensorFlow、TFlite、ONNX 等 |