网络闲聊

马会开奖结果马会特供资料站,香港地下六资料地2017妹妹都说亲眼见到刺客进的一双清灵的报码现场自动报系统最快,如此看来秦光泽这般反应天空彩票与你同行报码天空图片.

【深度】AI 入侵翻译神经机器翻译进化让巴别塔7年内成真

2017-10-14 13:40

  【新智元导读】 随着AlphaGo战胜柯洁,AI 所激起的惊慌不仅在围棋界蔓延,而且扩展到了几乎每一个领域,翻译受到的冲击尤为严重。深度学习的出现极大地变革了机器翻译:2013年以来基于神经网络的机器翻译在速度和准确度将翻译水平提升到了新的台阶。当下,科技巨头的激烈争夺以及学术界百花齐放的研究下,机器翻译水平仍在不断地进化当中,超过人类水平只是时间问题。在新的智能时代中,翻译这个“古老”的职业会消失吗?

  “从事翻译的人很可能会看到一些工作机会在不断消失,他们必须要习惯一种‘创业思维’。”

  5月27日,中国围棋大师柯洁在与AlphaGo的围棋对决中输掉最后一盘,0:3输掉全部比赛。当下,AI 所激起的惊慌不仅在围棋界蔓延,而且扩展到了几乎每一个领域,翻译受到的冲击尤为严重。现在,谷歌等公司向全世界提供免费的翻译服务,并且,已经可以提供“可理解”的翻译结果。

  大学最近完成了一项对机器学习研究人员的大型调查,调查内容是他们对 AI 进展的看法。综合这些研究人员的预测,未来10年,AI 将在许多活动中表现超过人类,例如翻译语言(到2024年),具体预测见下表:

  近年来,深度学习对翻译的最大影响,来自基于神经系统的机器翻译(NMT),这一技术将机器翻译的准确率大大提升。

  在十年前推出时,谷歌翻译采用的是基于词组的机器翻译(PBMT),几年前,谷歌大脑团队开始使用循环神经网络(RNN),直接学习输入序列到输出序列之间的映射。基于词组的机器翻译(PBMT)是将句子拆分成字词后单独翻译,而神经网络机器翻译(NMT)则将输入视为一个整体进行翻译。这样做的好处是翻译时需要进行的调整少了很多。

  当神经网络机器翻译技术刚刚出现时,就在中等规模的公共数据集上取得了与 PBMT 不相上下的成绩。自那时起,从事机器翻译研究的人提出了很多种方法改善 NMT,包括使用注意力将输入和输出对齐,将单词拆分成更小的单元或模仿外部对齐模型应对生僻字词。尽管如此,NMT 的表现仍是不足以成为产品被大规模部署。

  要每一步生成一个翻译好的英语单词,解码器需要注意被编码中文向量的加权分布中,与生成英语单词关系最为密切的那个(上图中解码器 d 多条透明蓝线中颜色最深的那条),解码器关注越多,蓝色越深。

  使用人类对比评分指标,GNMT 系统生成的翻译相比此前有了大幅提高。在几种重要语言中,GNMT 将翻译错误降低了 55%-58%。

  此外,谷歌大脑团队还宣布 GNMT 汉英英汉试用版上线。现在,谷歌翻译汉英语言的移动版和网页版都率先使用 GNMT,每天负责 1800万次翻译任务。

  谷歌大脑团队表示,GNMT 的上线得益于 TensorFlow和深度学习专用加速器张量处理单元(TPU),尤其是后者,提供了足够的计算能力来部署这些功能强大的 GNMT 系统,同时满足谷歌产品严格的延迟要求。谷歌大脑团队表示,今后的几个月里将持续推出更多的语种服务用户。

  机器翻译的挑战仍然存在。GNMT 还是可能会犯一些人类绝对不会犯的错,比如漏译、误译专有名词或罕见词,翻译时没有考虑到整段话乃至全文的意思。总之,GNMT 有待改善的地方还有很多,但无论如何,GNMT 都代表了一座重大的里程碑。他们感谢过去几年中谷歌内外以各种形式参与这项工作的研究人员和工程师。

  看到机器翻译巨大价值的绝非只有谷歌,中国的百度、华为、阿里和腾讯都有研究,Facebook 和微软等巨头也没有落后。这一种竞争态势,将会最大程度地推进机器翻译的商业化部署,进而变得对更多的人“可用”。

  12月21日,百度举行机器翻译技术日。负责人博士说,谷歌翻译在基于统计的机器翻译上做得很好,处于领先地位,但是在基于神经网络的机器翻译上,百度走在了前面。并且,谷歌翻译是以英语为中心的,百度翻译的中心是中文。另外,在语音的翻译上,百度要领先一些。在接受新智元的专访时,她说:“谷歌翻译是处在一个领先地位的,但我们的优势在于,在基于神经网络的技术上,我们是有点领先的。谷歌翻译发新闻通稿,里面也引用了我们很多之前发表的一些文章,这个大家如果关注的话可以查到。在神经网络这条线上我们是走在前面的,虽然他们在统计翻译里还是走在前面的。”

  她还补充道:“在线上的翻译系统里,我们在口语翻译上实际上是明显超越谷歌的,这一点大家可以随便去试试看看。”

  华为诺亚实验室在他们一篇被 AAAI 2017 录用的论文里提出了一个新的神经机器翻译(NMT)模型,引入基于重构的度指标,结果显示该模型确实有效提高了机器翻译的表现。华为诺亚实验室的研究人员表示,他们的 NMT 技术与谷歌持平。研究员在同一测试数据集上对谷歌、微软必应、及诺亚的系统做了评测(百度翻译因为直接记录了该测试集,无法直接比较),结果如下图所示。指标是业界标准 BLEU 点,一般来说人的 BLEU 值在50-70之间。

  谷歌系统比诺亚系统高大概3个 BLEU 点。研究员分析,这主要是因为谷歌系统集成了业界多种最新技术(包括诺亚的 Coverage 技术),以及使用了更大的训练数据集(据说数亿句对 vs. 一百万句对)。其实他们在方法上的创新并不多。可以说诺亚的基本技术与谷歌是持平的。

  3. Facebook 使用CNN技术而非传统的RNN,翻译速度比谷歌快9倍

  Facebook今天发布了一项新的机器翻译技术,使用CNN技术而非传统的RNN,在翻译准确度超越了此前被认为是2016年10大AI突破技术的谷歌机器翻译,并且翻译速度上快了9倍。Facebook称,创下新的世界纪录。目前,这一技术已经开源。Facebook 在博客中称,他们的技术在机器翻译峰会(WMT)所提供的公共基准数据集上,相比RNNs2,取得了新的最高水准。特别是,基于CNN 的模型准确度也超越了被用于评判机器翻译准确度的业界广泛认可的数据集WMT2014 英语-法语翻译任务中的历史记录 1.5 BLEU。在WMT 2014 英语-德语的翻译中,提升是0.4 BLEU,WMT 2016英语-罗马尼亚语,提升到1.8BLEU。

  基于神经网络的机器翻译技术要用于实践,其中的一个考虑的要素是,在我们把一句话输入系统以后,需要花多长时间,才能获得相应的翻译。 FAIR 的 CNN 模型在计算上常高效的,比企鹅比最强的RNN系统要快9倍。有很多的研究一直的着眼于如何通过量化权重或者精馏(distillation)的来提升速度,这些方法同样也能被用到CNN的模型中,来提升速度,甚至还能提升更多。这意味着,CNN 有着巨大的潜力。

  阿里翻译团队自2016年10月起正式开始自主研发NMT模型,2016年11月首次将NMT系统的输出结果应用在中英消息通讯场景下的外部评测中并取得了不错的成绩,翻译质量有了大幅度提升。

  在2017年4月份的英俄电商翻译质量优化项目中,分布式NMT系统大大提高了训练速度,使模型训练时间从20天缩短到了4天,为项目整体迭代和推进节省了很多时间成本。

  学术界对神经机器翻译(NMT)的研究兴趣不减。今年到5月份为止,在存取论文网站上发表的有关 NMT 的研究论文数量几乎相当于2016年全年的该主题论文数量。研究领域的火热,对于提供商业可用的翻译技术提供了最强大的技术支撑。

  就在柯洁与AlphaGo进行第三场比赛的那一天。韩国科学技术院的生物与大脑工程教授 Jung Jae-seung 在一场名为“人工智能与翻译的未来”的论坛上说,AI 驱动的翻译将会承担大量现有人类翻译所做的工作。

  “如果能理解不同语言之间的文化,并为之产生最好的相应文本,就可以定义为好的翻译的话,基于人工智能的翻译因为能够从不同的文化中搜集大量的数据,所以肯定在最后会超越人类”,他说。

  他还提到了今年2月,国际翻译协会(International Interpretation and Translation Association)组织的一场人机翻译竞赛。那场比赛得出的结果是,如果忽视速度和成本,人目前在翻译的准确度上确实比机器更高一筹。

  “我们不应该认为这一差距在未来还会持续”,Jung 说,“虽然很难接受,但是考虑到有充足的数据,谷歌等科技公司会有巨大的优势。正如AlphaGo 击败了李世石一样,我们都不知道它到底有没有理解游戏规则。AI 驱动的翻译可能也会直接跳跃过理解句子的阶段,在翻译上超越人类”。

  AI 驱动的翻译目前最大的好处在于免费和速度快。“如果AI 驱动的翻译准确率能达到93%,而几乎不需要付出什么成本,并且速度极快。那么,人们会在大多数的翻译场景下使用它”,Jung说。

  在口译领域,同样的性变革也正在发生,在这一行业中,速度的重要性远比笔译要高。AI 驱动的翻译能够以词对词的速度实时翻译人们的讲话,并且同时提供声音和字母,现在,机器可以翻译的语言有几十种。

  但是,Jung还表示,AI 驱动的翻译也有一些积极的方面,它可以帮助人类翻译的发展。 “通过分析 AI 驱动的翻译的各种特征并确定其优缺点,翻译人员可以更有效地工作。翻译和口译院系需要积极主动地将AI驱动的翻译纳入课程。“他说。

  未来,翻译会何方?Jung 的总结是,“个性化”和“创业思维”,当涉及高水平的语言,比如文学时,由于数据的缺乏AI 驱动的翻译可能不会做得那么好。翻应该强调自己的人性,在翻译中增加个性化的东西,增加翻译的可读性。

  他说:“我们现在所处的时代,机器会不断地无情地我们——你的工作有什么价值?它是否富有创造性?翻译员需要找一个新的方式来做贡献,这与此前有很大的不一样。

网络闲聊 | 网站统计