谷歌近日展示了Translatotron,这是一种首创的翻译模式,可以直接将语音从一种语言转换成另一种语言,同时保持说话者的声音和节奏。这个工具放弃了通常的将语音翻译成文本然后再翻译成语音的步骤,而是使用端到端技术直接将说话者的声音翻译成另一种语言,该公司希望通过直接翻译模式来开拓未来。

谷歌翻译

根据谷歌的说法,Translatotron使用了一种从序列到序列的网络模型,该模型接收语音输入,将其作为语谱图(频率的可视化表示)进行处理,并用目标语言生成一个新的语谱图,结果就是翻译速度更快,而且在翻译过程中丢失东西的可能性更校该工具还与一个可选的扬声器编码器组件,其工程保持扬声器的声音,翻译的语音仍然是合成的,听起来有点机械,但可以有效地保持说话人声音的一些要素。

最近几个月,谷歌一直在对其翻译进行微调。去年,该公司在谷歌翻译中引入了口音,可以说多种语言的基于地区的发音,并在其实时翻译功能中增加了更多的语言。今年早些时候,谷歌助理还为智能显示器和可以介于26种语言的扬声器设置了“口译模式”。