Origin E6
最前沿的设备端 AI 技术
Origin™ E6 NPU 支持最新的生成式 AI 模型和传统的 RNN、CNN 和 LSTM 模型,可以从 16 扩展到 32 TOPS,为苛刻的边缘推理应用提供最佳的性能、效率和功能平衡。
完美适配的解决方案
Origin E6 是一款定制的多功能 NPU,可满足下一代智能手机、汽车、AV/VR 和消费类设备的需求。E6 支持视频、音频和基于文本的 AI 网络,包括标准、定制和专有网络,是芯片架构师和 AI 开发人员理想的硬件/软件联合设计平台。这款产品为现有和新兴的 AI 模型提供广泛的原生支持,实现了高效的工作负载调度和内存管理,其处理器利用率高达 90%,从而避免了芯片面积浪费。
创新架构
Origin E6 神经引擎采用艾伯德基于数据包的独特架构,其效率远超基于层的通用架构。这款架构可以跨层并行执行任务,优化资源利用率,带来确定的性能。此外还不需要针对特定硬件进行优化,客户无需更改就可以运行其训练好的神经网络,而不牺牲模型准确度。这种创新的方法大大提升了性能,同时降低了功耗、面积和延迟。
选择您需要的功能
定制带来诸多好处,包括提高了性能,降低了延迟,减小了功耗,以及杜绝了芯片面积浪费。艾伯德在设计阶段与客户合作,了解其用例、PPA 目标和部署需求。借助于上述信息,我们将 Origin IP 配置成一种完美适配具体应用的定制解决方案。市场领先的 18 TOPS/W
可持续功耗效率是 AI 部署获得成功的关键。Origin NPU IP 一直被称为市场上最为节能的架构之一,其市场领先的可持续功耗达到 18 TOPS/W。
高效的资源利用率
Origin IP 单核性能可以从 GOPS 扩展到 128 TOPS。这款架构没有低性能平铺式 AI 加速器引擎面临的内存共享、安全和面积损耗问题。Origin NPU 的平均可持续利用率达到 80%,而行业标准仅为 20-40%,这避免了芯片面积浪费。
基于 TVM 的完整软件栈
Origin 采用基于 TVM 的完整软件栈。TVM 是广受全球 OEM 制造商信赖和使用的软件。它易于使用,可以导入训练好的网络,并提供各种量化选项、自动化完成、编译、估算器和分析工具。此外还支持多作业 API。
成功部署在 1000 万台设备上
质量是任何产品获得成功的关键。Origin IP 采用多先进节点设计,已成功部署在 1000 多万台消费类设备上。
用例
真实世界的用户体验
一家 OEM 制造商想为未来的高端消费类 AR/VR 设备打造业内一流的 AI 芯片。为满足未来的需求,这家制造商需要一款能够同时运行多个网络而上下文切换损耗为零的高性能 NPU。在评估各种选项时,他们发现虽然许多 NPU 声称支持多个网络,但其在网络切换时的延迟却很高。艾伯德可同时运行多个网络,而延迟却没有明显的增加,同时又能提供测试结果最佳的功耗、性能和面积,这使 Origin 架构成为客户的完美之选。
|
|
|
|
|
|
|
|
计算能力 | 8K 至 16K INT8 MACS |
多任务 | 同时运行多达 2 个作业 |
功耗效率 | 高效的 18 TOPS/W (INT8) |
支持的网络示例 | CNN、RNN、LSTM 和其他神经网络架构 |
性能示例 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax 等 |
层支持 | INT4/INT8/INT10/INT12/INT16 激活值/权重 FP16/BFloat16 激活值/权重 |
数据类型 | Channel-wise 量化(TFLite 规格) 基于工作负载需求的可选自定义量化 |
量化 | 确定性能保证 |
延迟 | 智能系统内存分配和调度 |
框架 | TensorFlow、TFlite、ONNX |