机器翻译难在哪里
取自 自然语言处理百科
做这么多年的机器翻译,感到最大的意外是翻译竟然要调用如此之深之广之多层次的知识,而且各个层次的知识彼此如此强烈相关,剪不断,理还乱。
首先,翻译需要彻底的源自然语言理解以及纯熟的目标自然语言运用,决不是很多人以为的有一本英汉词典,记住所有英语词法句法规则就可以的。而深层的自然语言理解则不得不触及到人类生活的各个层面各个角落,而 且需要浩瀚的背景知识(国外已经有人在谈论语言是知识的海洋)。有的知识和语种有关,如汉语世界谈及黄色新闻则会想到“色情”,英语世界则认为黄色新闻是“那种危言耸听,追求轰动效应的新闻”;有的知识和语种无关,如:孔子是中国春秋战国时代的思想家、教育家;乔丹是芝加哥公牛队的篮球球星;克林顿和莱温斯基有某种关系;邓小平已经去世……
翻译界常常讨论翻译人员不仅要熟习两种语言,而且要熟知两种文化的差异。但对计算机来讲,还有大量对人来说不讲自明的知识,如“苹果不能吃人,只有人可以吃苹果”;“冬天比夏天冷”;“擀面杖和做饺子有关”这样的知识。其中绝大部分知识都不是老师教的或书本上讲的,而是我们从小长到大所见所闻所感所悟,从具体的到抽象的,从星星点点的到连成体系的。我们在翻译时不知不觉(偷偷摸摸)调用了这些知识,计算机当然自叹弗如。
请看:
A. 1979年以前,中国大部分老百姓还没有解决温饱问题。
B. 2500年以前,中国出了一个教育家孔子。
为什么前者理解为“公元1979年以前”,而后者是“距今2500年以前的那一年”?常识告诉我们孔老二早已作古。
I can see Peking University tower on the mountain.
为什么翻译成“我在山上能看见北京大学的水塔”而不是“我能看见山上的北大水塔”?去过北大未名湖区的人都知道水塔并不在山上。
妻子晚餐还做了两个丈夫喜欢吃的菜。
为什么不能理解为“两个丈夫”而是“两个菜”?在我们这个一夫一妻制的国家里一个妻子不可能有两个丈夫。
演员谢幕时,不要坐着不鼓掌。
为什么“不要坐着不鼓掌”的主体是观众,不是演员?而“演员谢幕时,不要站着不鞠躬。”主体是演员?常识告知。
政府发给她一次性生活补贴。
为什么是“一次性 生活补贴”而不是“一次 性生活 补贴”?常识嘛!性生活怎么会发给补贴?等等,等等。
于是我们也就理解了为什么计算机不能向人那样翻译,它根本不是人类社会生活的一员嘛!
语音上也能提示一些消解歧义的信息。当一个老人说“孙子每天教我一点计算机。”我们知道他不是指战国时代的军事家孙子。因为他读为"sun1 zi4",而不是"sun1 zi3"。 “1979年以前”读成“一九七九年以前”则很可能是公元1979年;若读成“一千九百七十九年以前”则疑为“1979 years ago"。
语言生活在语境里,正如人生活在社会里一样。即使是孤立的一句话,人也是要给它造语境,使它有生命。“他今天没有喝酒。”言外之意,他一定经常喝酒。“在学校一定要听老师的话。”一定是爸爸妈妈送小孩上学时叮嘱的话。英语也是一样,“Mr. Smith was a great man." 言外之意,要么史密斯先生已经去世,要么他曾经是个伟人,但现在不是了。
众所周知的信息,我们就不必说了;许多默认的你知我知的知识(公共知识)也不用显性地字面上表达出来,只有那些新的,不那么明显的信息,才需要使用语言澄清。当代世界,语言是用来交流信息的。人们讲究的是语言的时效性,而不是规范性。在公共汽车里,我们拿着钱递给售票员说“三个天安门”("Three tickets for Tiananmen" rather "Three Tiananmens")。告诉售票员两个新的信息,(1) 买三张票,(2)目的地是天安门。机器翻译必须把隐性(unsaid)的信息,提升到字面上说出来。
因此,我认为,之所以机器翻译如此之难,是因为它涉及到诸多层次知识的调用。语言是一个多层次交织的系统,这些层次包括:语法,语义,语境,语音,常识,专业知识,以及场景和文化背景知识……如果说靠乔姆斯基式的句法知识能够解决(汉语)40%(这个数是瞎写的)问题;概念性的知识能够再解决到60%的问题;剩下的就都是语用知识。因此,机器翻译无法突破, say, 60%,而突破不了60%的机器翻译是没有什么实用价值的。
出路何在?或许我们应该把大百科全书都输入到计算机里?或许知识的获取要靠机器和人,机器和机器,机器和环境相互交流来获得?或许计算机的世界和人类的世界根本就是两个世界,别指望机器能理解人类社会?
原文出自:bbs曙光站

