华为最强云端AI芯片揭秘:性能超NVIDIA/Google

时间:2019-09-12 来源:www.ldkx.net

资料来源:核心情报作者:伍兹

在去年10月10日的华为HUAWEI CONNECT 2018年,华为的首席执行官徐志军宣布了华为的全栈全景AI解决方案,并正式宣布了两款AI芯片:最强大的N-Ten 910和最节能的N腾310。

经过近一年的时间。今天(8月23日),华为正式宣布了NTeng 910的成功商业化,并推出了全方案人工智能计算框架MindSpore。

最强的AI芯片N Teng 910

与之前公布的参数一样,N-Ten 910目前是最大芯片的单芯片计算密度,采用7nm增强型EUV工艺,单芯片内置32 Da Vinci内核,半精度(FP16)计算能力达到256 Tera- FLOPS,整数精度(INT8)功率高达512 Tera-OPS,最大功耗为350W。支持128通道全高清视频解码器 - H.264/265。

此外,根据华为此前公布的N腾910性能和谷歌TPU v2,谷歌TPU v3,NVIDIA V100对比数据,N腾910的计算能力是NVIDIA V100的两倍,计算能力远远超过谷歌和NVIDIA。

在现场,徐志军首先介绍了华为AI解决方案以及基于NT 310的产品和云服务的广泛应用。

然后,徐志军说:“我宣布最强大的AI处理器Ascend 910正式推出。去年十月,我们发布了Ascend 910的技术规格。今天我将介绍最新的实际测试结果。”

N Teng 910属于Ascend-max系列,徐志军公布了最新的测试结果:

半精度(FP16)计算能力达到256 Tera-FLOPS

整数精度(INT8)功率高达512 Tera-OPS

此外,实现规格功率所需的功率仅为310W,远低于设计规格的350W。

换句话说,在计算能力方面,N Teng 910完全符合设计规范。以下是N Teng 910首次亮相时公布的设计规格。

徐志军表示,N腾910的整体技术性能超出预期。 NTeng 910已用于实际的AI培训任务。其中,在典型的ResNet-50网络培训中,N Ten 910与MindSpore合作,与现有的TensorFlow主流培训单卡相比,性能提升近2倍。每秒训练的图片数量从965增加到1,802。

徐志军在现场表示:“N Ten 910的整体技术性能超出预期,而且是最强大的AI处理器。”

高计算能力,高集成度和高速互连共同创造了业界最强大的AI处理器NT 910.

基于DaVinci架构的AI核心是计算的核心。除了标量和矢量计算单元之外,AI核心还集成了一个3D立方体计算引擎,可以在一个时钟周期内执行4096次乘法和累加运算。

与CPU和GPU相比,有两个数量级的改进。 N Ten 910集成了32个立方体计算引擎,可输出256 TFLOPS。

它不仅是一个功能强大的AI计算处理器,而且还是一个高度集成的片上系统,集成了CPU,DVPP和任务管理器。

这些装置为N-Ten 910提供了“自主”功能,使其能够独立执行整个AI培训过程,最大限度地减少与主机的交互并最大限度地提高其功率。

创建强大的培训系统不仅需要芯片本身强大的计算能力,还需要有效的通信机制。

NT 910集成了三个高速接口,HCCS,PCIe和RoCE。

其中,自主研发的HCCS可以提供240Gbps的单接口传输。

它也是最新的PCIe,与上一代产品相比,吞吐量翻了一番。

芯片上的集成RoCE接口为多个节点之间的数据交互提供了有效的互连方案。这些互连技术极大地提高了构建培训系统的性能和灵活性。

最后,记者在现场询问,N腾910的价格是多少?毕竟,我们知道NVIDIA GPU和Google TPU都是定价的。

徐志军笑着说:“价格尚未确定,但肯定不会高于他们(NVIDIA GPU和谷歌TPU)。”

NTeng 310和NTeng 910才刚刚开始。徐志军表示,未来,它将继续投资更多的AI处理器和面向边缘的计算方案。在商用Ascend 310的基础上,它计划在2021年推出Ascend 320.以上是Nteng处理器的一系列时间表。如您所见,这一系列芯片涵盖了培训,MDC/DC和边缘计算方案。 2021年,将推出用于训练场景的Nteng 920和用于边缘计算场景的Nteng 320。 MindSpore全场AI计算框架,明年Q1开源!

此外,徐志军还发布了全景人工智能计算框架MindSpore,并宣布“MindSpore将于2020年第一季度开源”!

徐志军说:我们是否可以大大降低人工智能应用程序开发的门槛,无论我们是否可以在任何地方实现人工智能,我们能否确保用户隐私在任何情况下得到尊重和保护,这些都与人工智能计算框架密切相关。

在去年的HC会议上,华为提出AI框架应该是环保的(如显着减少培训时间和成本)和高效(如最小资源和最大能效),更重要的是,能够适应每个场景包括结束,边缘和云。

一年后,MindSpore,一个全景人工智能计算框架,在这三个方面取得了显着进展:在自然地适应每个场景的基础上,包括终端,边缘和云,并能够通过实施按需合作AI算法即代码,开发状态变得更加友好,模型的开发时间显着缩短,开发时间缩短。模型开发门槛。

MindSpore如何更快更有效?

MindSpore秉承“人工智能算法是代码”的概念,提供了一系列关键技术,如MindSpore自动微分,这是在Source 2 Source模式下实现的。它在性能和可编程性方面明显优于行业图表和操作员过载模式。它可以实现任意算子的微分表达和编译优化,实现逆算子的自动生成,极大地方便了模型的开发。

随着数据集和模型规模的不断扩大,模型并行性将成为必然趋势。与具有高阈值,低效率和难以调整的手动分割模型相比,MindSpore只需定义单机模型即可自动实现多机混合并行操作,而无需了解AI集群的细节。在主从控制模式下,CPU和GPU交互以引入内存和数据开销。 MindSpore完成芯片上神经网络模型训练的所有控制和执行,减少与主机CPU的交互时间,并实现更快的速度。在现有的分布式训练方案中,引入集中控制来找到梯度同步点。 MindSpore实现了分散式分布式梯度聚合,完全消除了控制开销。

最后,软件和硬件经过优化,可以为不同类型的运营商绘制最佳计算单元和数据布局,以获得最佳性能。

通过MindSpore自身的技术创新以及MindSpore和Ascend处理器的协同优化,运行状态非常高效,计算性能得到极大提升。除了Nteng处理器,MindSpore还支持GPU,CPU和其他处理器。

现在有TensorFlow和PyTorch框架,但现有框架都没有支持整个场景,这就是华为需要做的事情 - 覆盖终端边缘云,制作一个可以支持整个场景的框架,实现到处都是AI 。更基本的需求,这也是MindSpore的一个重要特征。

对于不同的操作环境,MindSpore框架体系结构的支持可以大或小,并且可以适应整个场景的完整部署。同时,MindSpore框架在确保用户隐私数据保护的前提下实现跨场景协作,通过协调处理的渐变和模型信息而无需隐私信息,而不是数据本身。除了隐私保护之外,MindSpore还将通过保护内置于AI框架来保护模型的安全可信设计。

为了降低AI开发人员的开发门槛,MindSpore创造性地实现了AI算法或代码,使开发状态更加友好,并显着缩短了模型开发时间。以典型的NLP(自然语言处理)网络为例,与其他框架相比,MindSpore可以将核心代码减少20%,开发门槛大大降低,整体效率提高50%以上。

华为的全栈全景AI解决方案已经完成。徐志军说,去年在HC会议上发布的全栈全场景AI解决方案已经完成!这是华为AI业务的新里程碑,这是一个新的开始!

在N-Ten 910商用之后,华为云AI将为客户提供足够的经济实力。通过MindSpore,华为云使科学家能够更有效地完成AI操作员开发(例如自动区分),缩短开发周期并减少开发工作。同时,MindSpore可以发挥N-Teng芯片的最大计算潜力,使硬件和软件协调可以更好地利用芯片计算能力。华为云计划致力于解决人工智能应用面临的“昂贵”和“困难”问题,降低人工智能计算和实施普惠人工智能的门槛。

http://www.whgcjx.com/bds0d5Q7z/NW2N