Skype Translator是微软研究、设计以及全球工程团队共同努力的成果。因为他们,才能最终呈现出自然且精准的翻译体验。

语言和语音研究

Skype Translator是在微软研究院十多年间在语音识别、机器翻译翻译与机器学习方面取得的进步基础之上产生的研究成果。不过,由机器驱动的语音翻译可以追溯到更早的时候。简单来说,以下是一些主要的里程碑:

  • 在第二次世界大战期间,解密战时加密代码的成功使人们燃起了信念,借助类似的方法,有可能成功地将一种人类语言翻译成另一种语言。

  • 1954年,IBM与乔治敦大学展示了基于6项语法规则和250字词汇表的计算机化俄/英翻译系统。

  • 1966年,美国政府机构组成了自动语言处理顾问机构(ALPAC)来研究机器翻译。

  • 1975年,学者们提出了关于建立现代语音识别系统基础的设想,相关研究在IBM与卡耐基梅隆大学展开。

  • 1990年,IBM研究学者们发表了一篇关于机器翻译的开创性论文。文章建议使用基于大量数据分析的统计方法,而非其他早期的研究方法。

  • 1997年,Dragon System与IBM发布了第一个用于大词汇量连续语音识别的商业软件。这是此项功能第一次被广泛传播。

  • 2007年,微软发布了Windows Live Translator(即后来的必应在线翻译)。它突破了微软研究院基于语法的统计计算机翻译。

  • 2011年,微软证明了深层神经网络(DNNs)对语音识别精确性能够起到实质性的提高,这是几十年来最大的进步。

  • 2012年,微软研究院创始人Rick Rashid 在中国的一个会议中证明了这些突破结合在一起的发展潜力。当Rick用英语演讲时,系统用Rick的声音生成了中文翻译,技惊四座。

  • Satya Nadella和Gurdeep Pall (Skype和Lync的微软企业副总裁)在位于兰乔帕洛斯第斯的就职典礼上见证了2014年Skype Translator的首次面世。

  • 2014年12月15日,Skype Translator预览版英文及西班牙语版首发问世,被邀请的用户已于第一时间体验试用。

用户体验设计

自从2003年的首次发布,Skype一直将用户体验置于首位。在Skype Translator的研发中我们也遵循同一原则,从而体现我们对全新沟通方式独特的尊重。我们认真考虑了在语音翻译中很多人性化的元素,于是我们会问自己很多问题,例如:

  • 先不说如何正确地做出翻译,如何确保Skype Translator能够准确地识别语音?

  • 对通话参与者而言,等待翻译语音时的最佳呈现方式是什么?

  • 如果参与者理解了翻译前的内容,在翻译出现之前回复了对方,我们该如何减少因此带来的混乱?

围绕这类问题的深入讨论让我们做出了很多设计上的决定,也设置了一些功能。比如通话中设置菜单,它可以让您量身定制您喜欢的使用体验。举个例子,在通话中,您可以:

  • 选择是否可见自动同步生成的文本,还能选择只出现翻译文本或选择原声文本与翻译文本都要。

  • 选择是否呈现翻译的语音播放,或把它关闭,只看文本信息。

  • 打开或关闭ducking。(ducking可以降低原音语种的音量,从而使语音翻译的音量更大、更容易听见。)

我们将通过从预览版中获得的数据继续完善Skype Translator的设计与用户体验。

工程团队

打造Skype Translator所需的工程技术需要解决一系列的挑战。更重要的是,要解决这些挑战,解决方案必须要整合成一个连贯的整体。虽然这可能意味着相当复杂的基础建设,但它仍然能够呈现出简单而直接的用户体验。

进一步了解该体系结构,如下图所示:

机器学习的训练数据

Microsoft Translator应用了机器学习技术来调试并优化自动语音识别与机器翻译模型。这些任务的调试样本有多种源头,包括翻译的网页、有字幕的视频、以前翻译和转录的一对一对话。

当准备好数据样本并录入机器学习系统后,它会建立起相应的上下文语境对话所包含的词语模型。反过来,这些统计模型也将教会语音识别引擎怎样将传入的语音流映射到文本,并且教会机器翻译引擎怎样将文本映射到另外一种语言中。

自动语音识别

当您说话的时候,Skype Translator将会在它的统计模型中寻找类似的东西,并将之前从音频到文本的配对应用在自动语音识别上。虽然语音识别一直是近几十年来的重要研究课题,但是该技术的发展普遍被错误率高、麦克风敏感度差异、噪音环境等因素阻碍。由微软研究院首创的深层神经网络(DNNs)技术使语音识别的错误率大幅度降低,并提高了可靠性,最终使这项语音翻译技术得以更广泛地应用,包括Skype Translator。而且,实现人类自如交流的梦想一直是微软研究院研究员们开发这项技术的主要动力。通过预览版,微软希望能够进一步提升其语言模型在多个演讲人、口音与情景下的处理能力。

语音校正

在语音识别引擎生成文本被录入机器翻译引擎之前,它会被校正并转化,以促进翻译的准确性——由于人们书写和说话的方式都极为不同,所以这一步显得十分必要。这一矫正过程包括去除不流利的语音,例如“啊”、“嗯”、停顿,以及当人们思考、更正、改变想法时说出的潜在词汇。理想情况下,这些细微之处都不应该出现在翻译和翻译文本中。语音校正的过程也包括停顿、断句以及实际交流中的语义格。

文本到语音的转换

语音翻译过程中的最后一步是语音合成。语音合成发生在当语音合成器接收到用于转换成音频的一个短语或句子时。这个系统组件已经有相关的成熟技术存在。

和Skype用户资料上记录的性别信息不同,Skype Translator可以让每个用户选择接收男性或女性的翻译声音。语音合成功能同时也是可选的:如果会话双方觉得阅读书面文本翻译更为放松的话,他们可以关掉语音翻译,这也有利于对话的顺畅,因为大多数人的阅读速度远远超过通过声音接受信息的速度。

针对Skype Translator可用性的研究发现,完全不懂对方语言的翻译通话参与者们很喜欢进行语音翻译,然而那些对另一方语言有一定熟知程度的人则更愿意选择快节奏的无语音翻译对话。预览版默认将语音翻译设置为开启状态,以便更容易地进行语音对话,因为当人们使用不同种类的设备时,可能会遇到看文本比听语音更困难的情况(比如使用移动电话时)。

机器翻译

Skype Translator的机器翻译部分把文本从一种语言翻译到另一种语言。Skype Translator与网页版必应在线翻译采用了同一种技术,这项技术开创性地结合了句法和统计模型,此外更加有针对性地训练对话性语言。这点非常有挑战性,因为现在用来搭建文本翻译系统的典型训练数据都是优化过的清晰、结构严谨的书面语言。我们的系统在包含必应在线翻译的丰富语言知识的同时,还额外加入了口语对话中出现的单词及短语。

翻译引擎还涉及到一个方面,即口语和俚语经常会反映出我们所在的地区、国家和文化特征。幸运的是,基于微软多年在各种社交媒体网站(例如Facebook和Twitter)的实践,Microsoft Translator已经在俚语翻译方面拥有了不错的表现。在预览版收集到的数据将会使系统观察学习更多的日常对话,从而将真实的对话语音能更加准确的翻译出来,包括休闲短语及专用词汇。

Skype Translator机器人

工程团队使用定制的机器人来协调整个体验。这些机器人负责建立通话,发送音频至语音引擎,进行文本翻译的交换,它们在通话中像第三方通话者一样(也就是您的个人虚拟翻译)。它在您说完后立即进行翻译,在通话另一方说完后也会做出翻译。经验表明,习惯于与人工翻译在一起工作的人能够更加迅速地适应这种交互方式,而其他人可能需要一些时间来适应它。

未来还需要做的事

总而言之,Skype Translator预览版第一阶段的发布是微软所有为之做出贡献的研发、设计与工程团队的里程碑,我们也深知这只是我们在实现最佳翻译体验之路上迈出的一步。我们希望借助预览版用户分享给我们的反馈和数据帮助进一步提升技术,完善算法,最终优化Skype Translator所创造的独特体验。虽然我们打下了稳固的基础,但对此项技术来说,这只是起步,在某些方面我们的工作才刚刚开始。