李开复:互联网无国界为机器翻译带来机遇

取自 自然语言处理百科

跳转到: 导航, 搜索

  互联网是一个真正无国界的媒介。它为来自不同国家、不同地区的人们提供了一个前所未有的可以自由交流、自由表达的信息平台。

  在这个平台上,分布在全世界各个角落的球迷都可以用同样的方式搜索到德国世界杯决赛阶段,每一个赛场的卫星照片和三维模型;在这个平台上,来自亚洲各国的歌迷们以完全相同的疯狂程度追随着Rain等“超人气偶像”……

  通过互联网,每个人都能接触到网络上的信息资源,都可以使用网络上的信息服务。在这里,我们几乎看不到地域的障碍,也察觉不出不同民族或不同文化之间的距离。

  当然,今天,在这个无国界的世界里还存在着一个巨大的挑战——如果一个普通中国人想到美国或是德国的网站上看一条信息,外语水平必将成为他能否顺利浏览信息内容的必要前提。而这也正是包括Google在内的许多公司之所以要大力发展机器翻译系统的原因所在。

  过去,机器翻译似乎是一个遥不可及的目标。前苏联、美国都投入了巨大的力量,做了多年的研究,但他们都在上世纪70年代遇到了瓶颈——机器翻译的质量非常糟糕,甚至很多人把它当成一个笑话。

  正是无国界的互联网为机器翻译带来了新的机遇。因为互联网上已有的大量数据都可以被用做机器翻译系统学习和训练的素材,翻译软件在海量语料和快速计算的基础上,相对准确地翻译目标文本逐渐成为了现实。例如,Google公司就有效地利用全球网络爬虫所搜来的信息做了相当有价值的工作,包括将所有汉英对照的网页信息都收集起来,再据此进一步确定每个短语甚至每句话的翻译方法。

  目前,Google已经搜索并处理了几十亿个双语对照网页,并创造了一种类似小孩学习语言的机器学习方式,让计算机自动从大量实际语料中掌握翻译的 “技巧”。Google培养的这个“自动汉英翻译员”目前已达到高中水平了,虽然它暂时还没有形成产品,但希望不久的将来,世界上所有人都能从中获益。

个人工具
工具箱