2015年4月 9日,Skype正式宣布在中国市场推出Skype Translator实时语音翻译技术的中文预览版,英文和中文普通话之间的实时语音翻译将有望成为现实。自2014年12月Skype Translator 推出英文和西班牙文之间的实时语音翻译之后,此次又增加了中文及意大利文两种可实时语音翻译的文字。Skype Translator 的即时通讯文本翻译则在原有40多种语言的基础上加入了塞尔维亚语、波斯尼亚语、克罗地亚语、玛雅语和奥托米语。

微软研究院战略总监及技术顾问Vikram Dendi表示,Skype Translator实时语音翻译技术的设计原理更接近于人脑而非传统的计算。Skype Translator与人脑一样,会随着数据输入的不断增多而变得越来越智能。Skype拥有32种语言版本,是全球增长最快的语音交流服务工具之一。Skype每个月有3亿活跃用户,可产生数万亿分钟的对话,是机器翻译最为理想的“实验田”。Skype Translator是目前为止唯一一个能实现从语音到语音的翻译服务,把深层神经网络与微软成熟的统计机器翻译技术相结合,Skype语音识别能力被进一步提高,能实现更加准确的翻译结果。Windows 8.1用户在Skype Translator注册页面完成中文版的注册后,就可立即试用。

融入深层神经网络

微软亚洲研究院副院长张益肇介绍说,Skype Translator凝聚了微软在语音识别、自动翻译和机器学习等科技领域几十年的研究成果。微软作为语音翻译领域的先驱者,在2012年首次演示了英文和中文普通话之间的实时语音翻译技术原型。微软在北京研究团队与位于美国雷蒙德团队密切合作,经过多年的研究和专注投入,完成了普通话的语言模型,使Skype Translator的中文语音翻译有望变为现实。

虽然语音识别一直是近几十年来的重要研究课题,但是该技术的发展普遍被错误率高、麦克风敏感度差异、噪音环境等因素阻碍。微软研究院率先将深层神经网络(DNNs)技术引入语音识别,极大降低了错误率、提高了可靠性,最终使这项语音翻译技术得以广泛地应用,其中包括了Skype Translator。通过研究,微软研究员发现深层神经网络技术可以帮助训练计算机使用多层数据的学习方式。早在2012年,微软研究员就把这项机器学习技术运用到实时语音识别中,并把语音识别的错误率降低超过了30%,这是自1979年以来该领域所取得的最重大进步。此外,微软的研究员发现,深层神经网络可以帮助语音识别引擎处理声音和口音的差异,还可以实现跨语言的学习,即一种语言的示例数据能帮助提升另一种语言的翻译准确性。

通过本次中文预览版的发布,微软希望更多的人能使用Skype Translator的中英文语音翻译功能,进一步提升语言模型在多个说话人、多种口音与不同情景下的处理能力。Skype Translator通过记录这些对话来分析对话文本并训练系统更好地“学习”各种语言。已经有很多用户与微软分享了对话记录,微软对这些对话进行了分析并为统计模型创造训练数据,统计模型教会语音识别和机器翻译引擎如何把收集到的语音转换为文本信息,然后将文本信息转换为另一种语言。使用Skype Translator的用户在对话开始前将收到清晰的系统提示,对话将被录制并用于提高微软翻译和语音识别服务的质量。

克服语音翻译挑战

实时语音翻译技术面临着巨大的挑战。一方面,人类的语言时刻变化着,书面语言和口语表达有着非常大的区别,各种不同的口音、新兴互联网语言等更加挑战实时语音翻译技术。另一方面,人们边思考边说话,在思考的过程中口语则往往表现出不流利的情况,出现停顿、重复并带有“嗯”“啊”之类的语气词。

在语音识别引擎生成文本被录入机器翻译引擎之前,Skype Translator会对其校正并转化,以促进翻译的准确性。这一矫正过程包括去除不流利的语音,例如“啊”、“嗯”、停顿,以及当人们思考、更正、改变想法时说出的潜在词汇,语音校正的过程也包括停顿、断句以及实际交流中的语义格。

人类的独特之处,在于沟通时的口语和俚语还会相应地体现出讲话人所在的地区、国家以及文化特征。基于多年在各社交媒体网站的实践,Microsoft Translator已经在俚语翻译方面拥有了不错的表现。这也帮助Skype Translator进一步提高了日常短语和术语的翻译能力。Skype Translator预览版能帮助系统观察和学习更多的日常对话,从而将真实的对话语言更加准确的翻译出来。

基于微软机器翻译引擎

Skype Translator基于微软的自然语言处理与机器翻译引擎。早在20年前,微软就组建了第一支专注于自然语言处理的研究团队,而在机器翻译领域则已经耕耘了十余年。

Microsoft Translator应用了机器学习技术来调试并优化自动语音识别与机器翻译模型。自从2006年开始在微软内部使用以来,Microsoft Translator于2011年成为SaaS网络服务API的形式为用户提供机器翻译服务。许多微软产品都在使用Microsoft Translator服务,包括Office、Yammer、必应搜索与SharePoint。而很多开发者也在通过Microsoft Translator的API使用微软机器翻译服务,微软机器翻译引擎目前支持50种语言。Microsoft Translator网络服务可被网站或基于任何硬件平台、任何操作系统的客户端应用使用,提供语言翻译及其它语言相关服务,包括语言甄别、文本到语音及词典功能等。

在Skype Translator中,微软还创造了一个定制化的机器人程序来协调整个产品体验,这就像电话中的第三方一样,该程序负责建立电话连接、发送音频流至语音引擎获取翻译文本,并分别在双方结束说话时翻译其所说的内容,这是基于微软研究院和Skype团队集合双方共同的专业知识和工程能力。

本次推出中文预览版的新功能包括:语音读取文字信息,用户可以通过语音收听到对话方发送给自己的即时消息;持续性识别,在对方发送语音信息期间可持续性的进行文字翻译;自动声量控制,对话方可以在实时语音翻译期间不间断地说话,收听方可收听到较高音量的语音翻译而同时对话方的音量则偏低;语言翻译静音功能,可以任意开启或关闭语音翻译的声音,可直接读取文字翻译。

微软研究院战略总监及技术顾问Vikram Dendi表示,虽然此次预览版的发布对于参与开发的团队来说是一个重大的突破,但这只是创造最佳翻译体验之路上迈出的一步,微软将在预览版用户提供的反馈和数据基础上提升技术并优化Skype Translator体验。

对于中英文实时机器语音翻译来说,现在仅仅是开始。