8月23日,华为在深圳坂田总部正式发布算力最强的AI处理器Ascend 910(昇腾910),同时推出全场景AI计算框架MindSpore,华为官网此前预热的“周五见”正式揭开神秘面纱。
华为公司轮值董事长徐直军在发布会上表示:华为自2018年10月发布AI战略以来,稳步而有序地推进战略执行、产品研发及商用进程。昇腾910、MindSpore的推出,标志着华为已完成全栈全场景AI解决方案(Portfolio)的构建,也标志着华为AI战略的执行进入了新的阶段。
算力最强AI处理器
徐直军此次正式发布的AI芯片是昇腾910,属于Ascend-max系列。在HC2018上已经发布了其技术规格。实际测试结果表明,在算力方面,昇腾910半精度 (FP16)算力达到256 Tera-FLOPS,整数精度 (INT8) 算力达到512 Tera-OPS,重要的是,达到规格算力所需功耗仅310W,明显低于设计规格的350W。徐直军表示:昇腾910总体技术表现超出预期,作为算力最强AI处理器,当之无愧。
“我们已经把昇腾910用于实际AI训练任务。比如,在典型的ResNet50 网络的训练中,昇腾910与MindSpore配合,与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。面向未来,针对不同的场景,包括边缘计算、自动驾驶车载计算、训练等场景,华为将持续投资,推出更多的AI处理器,面向全场景持续提供更充裕、更经济、更适配的AI算力。” 徐直军如是说。
全场景AI计算框架
2018年华为全联接大会上,华为曾提出,AI框架应该是对开发者更加友好,运行更加高效,更重要的是,要能适应每个场景包括端、边缘和云。全场景AI计算框架 MindSpore,正是在这三方面都取得了显著性进展。
徐直军在发布会上说:“通过实现AI算法即代码,使开发态变得更加友好,显著减少模型开发时间。以一个NLP(自然语言处理)典型网络为例,相比其他框架,用MindSpore可降低核心代码量20%,开发门槛极大降低,效率整体提升50%以上。通过MindSpore框架自身的技术创新及其与昇腾处理器协同优化,有效克服AI计算的复杂性和算力的多样性挑战,实现了运行态的高效,极大提高了计算性能。除了昇腾处理器,MindSpore同时也支持GPU、CPU等其它处理器。”
这到底意味着什么?
相信很多对半导体行业的读者看到这里可能都有些“云里雾里”的感觉,毕竟这不是像手机芯片一样,人人都会接触到的东西。那么华为这次在微博上预热的“周五见”对于行业来说到底意味着什么呢?
首先做个类似的比喻,帮助大家理解,昇腾910和MindSpore到底是什么。我们都熟悉的电脑当中有一个很重要的组件叫做GPU,通常称为显卡,有了它才能处理电脑中的视频、图像信号,GPU的性能越强能够处理视频信号的能力就越强,通常来说就能玩更大型的游戏,这次发布的昇腾910可以大概理解为是服务器里的显卡,只不过它不是用来进行处理视频信号,而是用其强大的算力对AI模型进行训练的;MindSpore全场景AI计算框架则可以去大致类比电脑中的操作系统,有了它才能让AI处理器的强大算力充分发挥出来。
我们常说中国改革开放40年来发展以来在制造业方面取得了长足的发展,成为了制造业大国,但是距离制造业强国还有一定的差距,在一些高精尖科技的制造方面还处于劣势,特别是在芯片、存储器、操作系统这种对现代经济发展至关重要的核心部分长期依赖于进口。芯片的架构设计,底层技术的构建上是衡量一个国家在在半导体领域话语权的重要标志。在全球都在激烈竞争的AI高地上,人工智能的快速发展主要依赖于算力、算法模型和数据,华为有了目前世界算力最强AI处理器,对于人工智能算法模型的训练从过去的几个小时缩短到以分钟为单位,MindSpore全场景AI计算框架实现了运行态的高效,适应每个场景包括端、边缘和云,极大便利了开发者,能让AI应用更快成型,更容易投入使用,对于我国人工智能生态的形成起到了加速器的作用。
想必到这里读者对于这次“周五见”的重要意义有了一定认知,那么我们回过头来在看看这款号称最强算力AI处理器到底是什么水平。
昇腾910是计算密度最大的单芯片,最大功耗为350W,半精度为(FP 16)256 Tera FLOPS,比英伟达 V100的125 Tera FLOPS还要高出近1倍。若集齐1024个昇腾910,将会出现迄今为止全球最大的AI计算集群,性能也将达到256个P,不管多复杂的模型都能轻松训练。
徐直军曾解释说:“简单来说就是,昇腾910是业界算力最高的AI处理器,相同功耗情况下,它的算力是业界芯片的2倍,最强CPU的50倍。”
全栈全场景
2018年10月,华为在其全联接大会上首次提出全栈全场景 AI 解决方案,华为轮值董事长徐直军表示,“全场景,是指包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境。全栈是技术功能视角,是指包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案。”
其中,全栈AI的基础,是一系列基于统一的达芬奇架构的AI芯片,比如我们熟悉的手机芯片麒麟810,还有已经发布了昇腾310,包括这次刚刚发布的昇腾910也是基于该架构。
据华为内部相关人士透漏,昇腾910内部集成了496亿个晶体管,无论是集成度、工艺、还是设计都代表了当今芯片业的最高水准。相比于竞争对手来说,虽然对手起步早,基础雄厚,但是其产品是在原有产品的基础上演进而来,并非单纯为AI所设计,在功能上存有冗余。华为的达芬奇架构是在没有任何历史包袱的基础上从零开始设计的,单纯针对AI运算特征,以高性能3D Cube计算引擎为基础,实现了算力和能效的大幅提升。
有了昇腾系列芯片,支持端、边、云独立的和协同的统一训练和推理框架MindSpore,华为提出的全栈AI,还包括芯片算子库和高度自动化算子开发工具——CANN,提供全流程服务(ModelArts)、分层API和预集成方案的应用使能。
其中,在2019年已经落地实现商用的,除了昇腾310,还有其面向用户和开发者的门户——华为云ModelArts。作为一站式AI开发平台,ModelArts可以提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。2019年5月,在斯坦福大学DAWNBench榜单,华为云ModelArts获得图像识别训练第一。