2016年可以说是人工智能产业在全球被极大热炒的一年,AlphaGo打败世界级选手李世石的事件引发了全球的关注,Facebook、Amazon、谷歌、IBM和微软结成史上最大人工智能联盟再次轰动产业界,而创投和各类资本已经自2015年就全面涌入人工智能领域。站在全球人工智能60年的历史之交,人工智能产业化已经蓄势待发。
随着人工智能产业的迅速发展,全球人工智能产业也初现技术大格局,形成了大型软件与应用公司、大型硬件芯片级公司、以高校为主的开源社区三极鼎立的局面。其中,大型软件与应用公司包括了微软、Google、Facebook等,大型硬件芯片级公司包括了英特尔、NVIDIA、IBM等,开源社区包括了UC Berkeley大学、卡耐基﹒梅隆大学、Montreal大学等,而创业公司就在这三大生态中选择站队。
然而,来自中国的第四极势力正在全球人工智能产业竞争博弈中扮演越来越重要的角色。2017年1月12日,在笔者与浪潮集团高性能计算总经理刘军的访谈中,刘军表示鉴于谷歌在开源社区强大的号召力和强势推广,现在要警惕谷歌TensorFlow垄断人工智能产业,浪潮作为全球领先的服务器和高性能计算系统厂商,正全力扶持源自UC Berkeley大学的Caffe社区等第三方开源生态,从而突破国际产业巨头的重压。
开源人工智能软件的陷阱
2015年以来,令全球人工智能产业界以及人工智能产业创业者十分兴奋的是,国际巨头纷纷开源自己的人工智能和机器学习算法。2015年11月9日,谷歌推出第二代开源机器学习软件库TensorFlow,2016年4月谷歌再次推出了分布式TensorFlow。除谷歌外,微软、Facebook、百度等都在2016年加大了自家人工智能和机器学习算法的开源力度。
目前从开源的力度和生态丰富性看,谷歌占了大头。2016年5月,谷歌公布了TensorFlow中开源神经网络框架SyntaxNet,提供自然语言理解基础;2016年8月,谷歌开源了TensorFlow中用于文本信息提取并自动生成摘要的模型,擅长长文本处理;同样在8月,谷歌开源TensorFlow高级软件包TF-Slim,能快速准确地定义复杂模型,尤其是图像分类任务;2016年12月,DeepMind开源了AI核心平台DeepMind Lab。
除了开源各种算法外,谷歌还开源了几个带标注的数据库,用于吸引更多的开发者。2016年9月,谷歌先后开源了含有大约10亿英语单词、80万词汇的大规模语言建模模型库,以及含有800万个Youtube视频URL的视频数据库和从4800个知识图谱分类数据集中提取的视频级别标签;2016年10月,谷歌再次发布了图片数据库Open Images,包含了900万标注数据、标签种类超过6000种,超过了只有1000个分类的ImageNet。
然而,大家一方面在欣喜于可以站在谷歌这样的巨人肩膀上,但另一方面在实际的开发中却发现谷歌算法的效率其实并不尽如人意。刘军表示,浪潮集团一直在关注人工智能和机器学习技术的进展,在Inspur-NVIDIA云超算应用创新中心和Inspur-Intel并行计算实验室基础上,组建专门的深度学习团队,针对不同行业对深度学习计算平台的需求,开发个性化的解决方案。在实际应用中发现,虽然TensorFlow在开源社区的下载量很高,但在实际商用过程中往往不能满足需求。其中的原因不言而喻,作为一家商业公司,谷歌其实并未真正开源自家人工智能算法的核心,同样的情况也适用于其它人工智能商业公司。
中国加入全球人工智能产业博弈
早在2015年3月GPU技术大会GTC 2015上,浪潮就发布了首款高性能MPI并行计算集群版的Caffe深度学习计算框架,并开源公布了所有代码。2016年6月,在第31届国际超算大会(ISC2016)上,浪潮再次全球首发基于英特尔最新KNL平台的深度学习计算框架Caffe-MPI,这标志着浪潮是全球第一个在英特尔KNL平台上完成Caffe并行开发的公司。
浪潮为什么大力支持Caffe社区呢?刘军表示,浪潮集团从2014年就已经开始关注人工智能和机器学习领域的进展,2014年到2015年尝试自己开发相关的算法,自从2013年底UC Berkeley大学率先开源了Caffe算法后(也是第一个开源的人工智能算法),浪潮开始转而支持以Caffe为代表的开源社区。
“开源框架相当于是发明了‘轮子’,Caffe、TensorFlow、百度等开源算法属于不同的‘轮子’,比如Caffe非常擅长图像和视觉处理。只是Caffe目前是‘独轮车’,那我们就把它改造成四轮车。”刘军说,而这就是浪潮Caffe-MPI的由来。Caffe-MPI是一款高性能高可扩展的深度学习计算框架分布式集群版本,由浪潮的HPC应用开发团队开发,支持GPU集群和英特尔KNL集群等并行计算环境。
众所周知,Caffe由学者贾扬清于UC Berkeley大学就读博士期间开发并开源,该项目最早基于NVIDIA捐赠的一块K20 GPU开发,目前在Github上有单机单卡版本。Caffe社区是一个由UC Berkeley主导,再加上Github上Caffe-users邮件组所组成的一个比较松散和自由的开源社区。贾扬清曾表示,Caffe的目的就是成为机器学习和深度学习领域的Hadoop,社区通过改进Caffe本身的框架、代码、优化和周边各种支持,将Caffe变成一个业界标准的框架,以便更好地进行科研以及更快地产业化。
相对于后来的TensorFlow等产业巨头主导的开源算法,Caffe开源的十分彻底,而且由于是高校主导的开源社区,也得到了NVIDIA、英特尔、浪潮等产业公司的大力支持。例如浪潮Caffe-MPI计算框架完全保留了原始Caffe架构的特性和最新功能,支持最新的cuDNN,支持命令行、Python和MATLAB接口等多种编程方式,具备上手快、速度快、模块化、开放性等特性,为用户提供了最佳的应用体验。
除了浪潮外,雅虎于2016年2月介绍了集Caffe和Spark两大平台优势而开发CaffeOnSpark大规模分布式深度学习框架,并向Caffe开源社区贡献了部分代码。2016年11月,成为了Facebook 研究员的贾扬清介绍了新的机器学习框架 Caffe2go并表示将在接下来的几个月部分开源,Caffe2go 规模更小、训练速度更快,在手机上就能运行。在大型芯片公司、互联网公司和计算系统公司等支持下,Caffe的生态正在完善起来。
人工智能第四极的崛起
实际上,中国正成为全球人工智能产业发展的新一极势力。根据《乌镇指数:全球人工智能发展报告2016》,从人工智能企业数量、融资规模、专利申请数三个维度,尽管美国在人工智能领域的优势明显,但近年来中国在上述三项的发展速度上开始领先全球,尤其是在新增专利数上开始超越美国。其中一个最大的原因,就是中国有足够大的应用市场。
刘军说,2016年来自人工智能和机器学习的需求大涨,“增长速度太快了,发展已经超出了通常业务的规划速度,以至于来不及做出反应”。阿里、腾讯、百度等互联网公司是浪潮深度学习服务器和解决方案的第一大用户群:浪潮是阿里的第一大服务器合作伙伴,双方联合开发基于GPU的超算服务器;浪潮是百度数据中心的最大合作伙伴,双方在HPC高性能计算与天蝎整机柜数据中心都有密切合作;浪潮也是腾讯大数据与高性能技术的创新合作伙伴,实现了超大规模大数据处理性能。
除了与互联网巨头合作深度学习和定制高性能计算系统外,浪潮还进一步对以深度学习为代表的人工智能产业布局:从硬件基础设施创新、系统优化能力强化与并行框架完善三方面入手,推动异构技术在深度学习领域的全球化应用与生态环境的完善。
浪潮现在已经是NVIDIA在亚太区的最重要合作伙伴。2016年11月,在美国盐湖城举行的全球超算大会SC16上,浪潮发布了深度学习一体机D1000,部署了采用NVIDIA Tesla GPU技术的浪潮高性能计算集群,运行多节点并行深度学习框架Caffe-MPI,可大幅提升在人脸识别、图片分类、物体识别等应用场景的深度学习计算性能。
同样在SC16上,浪潮还与英特尔发布了合作研发的FPGA加速卡F10A,这是目前业界支持OpenCL的最高密度、最高性能的FPGA加速设备。值得一提的是,F10A支持2个10Gb光口,可以实现数据直接从网络到板卡处理,无需经过CPU从而大幅减低了传输延时。而在SC15上,浪潮已经与科大讯飞、Altera合作将FPGA芯片应用于智能语音线上识别。浪潮还将进一步研发基于FPGA的通用系统方案,包括整机柜计算、网络、存储FPGA方案。
在与英特尔的合作方面,除了率先推出基于KNL平台的深度学习计算框架Caffe-MPI外,双方还有2016年6月联合启动一项代号为“Keep”的试用体验计划,共同建立基于KNL技术的、开放的高性能计算系统,帮助更多高性能计算和深度学习用户在KNL上完成应用测试、迁移及优化。HPC或深度学习用户均可向Inspur-Intel并行计算联合实验室提交应用说明和KNL测试迁移申请,评估审核通过后即可获得开放的测试资源。
刘军对于浪潮集团在人工智能方面的工作,有一个形象的比喻:开源框架是“车轮”、GPU和CPU是“发动机”、FPGA是“变速箱”、数据是“汽油”,浪潮集团就是“整车系统集成商”。之前发布的D1000就整合了经过优化设计的浪潮高性能计算集群硬件、Caffe-MPI并行计算框架、经过测试验证的OS和CUDA环境,以及集群管理调度平台 ClusterEngine,实现软硬件一体化安装配置,打开D1000即可用Caffe-MPI进行深度学习应用。
2017年,人工智能产业将进一步爆发。为了提高中国整体的人工智能领域的竞争力,浪潮集团还连续多年举办深度学习培训营,大批培养“维修工”和“驾驶员”。“至于Keep平台,就是很好的‘试驾’体验!”随着以浪潮为代表的中国人工智能产业化阵营加入全球博弈,中国有望成为全球人工智能产业健康发展的均衡力量,让人工智能突破国际产业巨头的钳制,真正造福人类的发展。