在日前的微软Build 2015和首届微软Ignite大会上,业界看到了微软带来的诸多令人惊喜的新产品、服务与解决方案。在Build 2015上,微软展示了HoloLens更多的应用场景、“Microsoft Edge”下一代浏览器、整合了Uber插件的Outlook、Android和iOS应用轻松迁移Win10等;而在首届Ignite上,微软展示了Azure Stack、SQL Server 2016、Windows Server 2016、System Center 2016等多项全新的企业级技术。
可以看出微软正在从云与移动端两个方面全面发力,而最新的微软财报显示,微软的“商业云”业务已连续多个季度超过100%的增长,转型之路正在稳步展开。然而,令人眼花缭乱的新产品、新技术与新解决方案的背后隐藏着什么样的商业逻辑?微软向云计算的转型正在向深入发展,随着免费和新业务模式的推进,微软未来的复兴之路将会怎样进一步展开?这个答案或许可以从最近在中国市场发布的Skype Translator实时语音翻译技术中文预览版管豹一窥。
利用社会智能推进产品研发
Skype Translator实时语音翻译技术中文预览版是Skype新近推出的功能,有望实现英文和中文普通话之间的实时语音翻译。自2014年12月推出英文和西班牙文之间的实时语音翻译之后,Skype Translator此次又增加了中文普通话及意大利文两种可实时语音翻译的语言。Skype Translator 的即时通讯文本翻译则在原有40多种语言的基础上加入了塞尔维亚语、波斯尼亚语、克罗地亚语、玛雅语和奥托米语。
尽管微软于2015年4月发布了Skype Translator中文预览版,但这项技术还有很大的提升空间。因为虽然之前Skype Translator的实时语音翻译技术在英文和西班牙文之间取得了很好的效果,但中文毕竟不同于西方语音体系,有自己的特殊性。微软发布Skype Translator中文预览版,更大程度上希望有更多的中国用户真正使用这项技术,从而能够完善这项技术。微软亚洲研究院首席研究员周明表示,大规模的数据挖掘是接下来机器翻译的方向之一。目前微软面向中文的网络挖掘还需要进一步提高,通过挖掘出更好的翻译资源,再抽象成翻译知识后加入到微软的机器翻译系统中。这就是所谓从数据智能到知识智能到社会智能,以及三个智能互相转换的过程,只有通过三个智能的合力才能实现成熟的系统。
周明介绍说,所谓社会智能就是广泛从用户端收集来的智能,智能的产生来源于用户使用微软的系统后提供的反馈。这就像搜索引擎一样,越多用户使用就会越好用。周明强调,互联网精神就体现了所谓的社会智能。产品推出的第一天,用户就能参与了,用户的智能则帮助系统越做越好。微软研究院战略总监及技术顾问Vikram Dendi表示,Skype Translator实时语音翻译技术的设计原理更接近于人脑而非传统的计算,会随着数据输入的不断增多而变得越来越智能。
除了Skype Translator外,微软推出的Windows 10免费策略在某种程度上就是在利用社会智能完善产品以及增强用户粘性。为了研发Windows 10,微软推出面向Windows 10的Windows Insider项目。这是一个专门用于倾听用户声音的社交化平台,用户升级到Windows 10技术预览版,就可以注册并加入Windows Insider项目,直接把自己对于Windows 10的桌面或手机预览版的意见反馈给微软。自2014年9月发布以来,Windows Insider项目迄今已经吸引了全球300余万用户的参与,其中还包括来自中国的数十万用户。Windows Insider有PC版及手机APP版,微软的Windows 10开发团队日以继夜的“泡”在Windows Insider里,吸取全球用户的反馈,并直接转化到Windows 10的产品开发中。
争夺战略技术制高点
微软亚洲研究院首席研究员周明介绍说,Skype Translator凝聚了微软在语音识别、机器翻译和机器学习等科技领域几十年的研究成果。据周明介绍,微软从1999年就开始研究机器翻译。2006年,多伦多大学的Jeff Hinton开始将深层神经网络DNNs用于机器学习。随后,微软雷德蒙研究院首席研究员邓力开始跟进,把深层神经网络DNNs用于微软机器翻译技术。2009年以前,几乎所有的语音识别系统都是基于高斯混合模型(GMMs),但结果却令人失望。从2009年下半年开始,随着邓力等微软研究员的努力,基于深层神经网络DNNs开始呈现出不同的结果。2012年,微软研究院创始人Rick Rashid在中国天津首次演示了基于深层神经网络DNNs的语音识别和机器翻译技术。当Rashid用英语演讲时,中国观众借助现场机器翻译工具听到了Rashid原音讲述的汉语普通话,这是语音识别和机器翻译技术在近年来的重大突破。
微软之所以长期投入机器翻译,一方面是因为机器翻译能克服语言障碍,在全球范围内有非常大的使用价值、研究价值和经济价值,因此各大公司都有自己的研究组在从事机器翻译研究。另一方面,机器翻译是继搜索之外的一个新的技术战略竞争点,各大公司都非常关注。因为机器翻译本身对推动机器学习、大数据、人工智能等都非常重要,它体现了人工智能最终追求目标,即给定一个输入如何得到一个输出。如果把机器翻译研究透彻了,很多方法可以平行地转移到其它领域里,所以机器翻译对整个人工智能学科的推动有很大的意义。
周明表示,微软非常重视机器翻译,积累了十多年的研究成果,才推出了Skype Translator这样一个把语音和翻译集成的体验。目前,微软亚洲研究院机器翻译团队有四位博士,都长期从事机器翻译,大部分至少有十年左右的经验,他们分别在数据挖掘、语言模型、翻译模型、解码等各个方面进行机器翻译的研究与实验。
快速孵化研究成果
微软研究院战略总监及技术顾问Vikram Dendi说,Skype Translator基于微软翻译引擎Microsoft Translator。自从2006年开始在微软内部使用以来,微软在2007年的时候就正式发布了机器翻译服务,实现了对网页内容的大规模翻译。2012年,微软发布了Microsoft Translator Hub,运用了自助服务模式构建适用于任何两种语言之间的高度定制化自动翻译服务。
Microsoft Translator Hub基于Azure云服务,以SaaS网络服务API的形式为用户提供机器翻译服务。很多开发者也在通过Microsoft Translator的API使用微软机器翻译服务,微软机器翻译引擎目前支持50种语言。Microsoft Translator网络服务可被网站或基于任何硬件平台、任何操作系统的客户端应用使用,提供语言翻译及其它语言相关服务,包括语言甄别、语音合成及词典功能等。Vikram介绍说中国有很多使用Microsoft Translator API的开发者和用户,最先采用Microsoft Translator API的中国用户来自电商企业。中国电商企业需要把产品卖向全球各地,因此需要通过机器翻译的方式建立各种语言版本的电商网站,而中文也是Microsoft Translator机器翻译引擎云服务中使用频率最高的语言之一。
许多微软产品都在使用Microsoft Translator服务,包括Office、Yammer、必应搜索、微软小娜、SharePoint等,而Skype Translator也是其中之一。Vikram表示,Skype Translator实时语音翻译主要由三大项技术构成,分别是自然语言识别、机器翻译以及语音合成。其中自然语言识别完成从语音输入到文本的转化,机器翻译完成从一种语言的文本到另一种语言文本的翻译,而语音合成则实现从翻译好的文本到语音的输出。Skype Translator实时语音翻译在这三大技术领域,都是基于微软长期的研究成果积累而成。
Vikram说他在加入微软之前曾在创业公司、大型企业与研究机构工作过,对于创业公司来说不可能向战略技术投入5年或更多的时间,而对于大型企业来说也只有微软这样的企业肯于投入一项很可能长期都看不到结果的技术领域。而现在,微软研究院的长期技术储备开始迅速向微软的各个产品层面孵化。微软HoloLens全息眼镜是微软推出的一款虚拟现实装置,为头戴式增强现实装置,可以完全独立使用,无需线缆连接、无需同步电脑或智能手机。而HoloLens的研究者Alex Kipman在微软公司工作了15年,曾是Xbox和Kinect团队的核心人物。Alex Kipman在Kinect上所取得的成就,为微软后来开发HoloLens技术奠定了基础。而不论Kinect或HoloLens,都是基于微软研究院多年来的基础研究和技术积累。
在微软采取的面向未来的多种策略中,社会智能将会是一个重中之重。微软亚太研发集团主席兼微软亚洲研究院院长洪小文强调,互联网是一个很大的实验平台,用户的反馈和行为将对微软的决策产生很大影响。即将推出的Windows10覆盖了包括手机、平板、传统的PC、笔记本、物联网设备等平台,也搭载了微软小冰、微软小娜这两个人工智能助手,免费的Windows 10将是一个巨大的互联网实验平台,帮助微软更了解用户的需求,更好地改进产品。这或是微软未来百年基业长青之路。