
Origin E2
在功率优化的封装中实现理想性能
Origin™ E2 专为手机和边缘节点等耗电应用而设计。E2 深度学习加速器 (DLA) 无需外部 DRAM 访问,节省了系统功耗,同时提高了性能,降低了延迟,缩减了系统 BOM 成本。其高效引擎的功耗不到 1W,可实现 18 TOPS 的性能。Origin E2 可针对特定工作负载进行调整,从而为独特的应用要求提供理想的性能配置文件。
特征
规格
- 高效性能 18 TOPS/W
- 0.5 至 10K INT8 MACS 的可扩展性能
- 可在片上处理实时高清视频和图像
- 高级激活内存管理
- 低延迟
- T可针对特定工作负载进行调整
- 用于神经网络的硬件调度器
- 支持标准的神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、softmax、双线性插值
- 训练好即可处理模型,无需软件优化
- 使用熟悉的开源平台,如 TFlite
- 以软 IP 提供:可移植到任何工艺
计算能力 | 0.5K 至 10K INT8 MACS |
功耗效率 | 高效的 18 TOPS/W (INT8) |
作业数 | 单 |
神经网络支持 | CNN, RNN 和其他神经网络架构 |
层支持 | 标准神经网络功能,包括卷积、反卷积、全连通、激活函数、Reshape、Concat、Elementwise、池化、Softmax、双线性插值等 |
数据类型 | INT4/INT8/INT16 激活值/权重 & 激活值/权重 |
量化 | Channel-wise 量化(TFLite 规格) |
延迟 | 已针对最小延迟进行了优化,提供确定保证。 |
内存 | 智能片上动态内存分配算法 |
框架 | TensorFlow、TFlite、ONNX |
工作负载 | 可在片上处理 4K 视频和 8K 图像 |
优势
业界领先的性能和功耗效率(高达 18 TOPS/W)
架构可满足多种计算需求。
大幅降低内存需求,无需片外 DRAM。
无任何变动即可运行训练好的模型,并且无需依赖硬件的优化。
确定的实时性能
改进了工作负载的性能,同时仍能运行多种模型。
简单的软件栈。
实现与训练好的模型相同的精度。
简化了对最终客户的部署。
好处
- 效率:业界领先的 18 TOPS/W 可实现更高的处理效率和更低的功耗
- 简单性:消除了复杂的编译器,降低了设计复杂度,缩减了成本,加快了上市时间
- 可配置性:可独立配置的构建块实现了设计优化,并能进行适当规模的部署
- 可预测性:确定的 QoS
- 可扩展性:从 1 至 20 TOPS,单个可扩展架构即可满足广泛的应用性能要求
- 可部署性:市场上优秀的 TOPS/mm2,可确保理想的处理/芯片尺寸设计
持续关注
订阅我们的新闻
立即注册,即可收到直接发送到收件箱的有用资源。