不久前,一个实时翻译视频风靡网络,视频中两名分别说着英语和西班牙语的人借助 skype 软件的实时翻译功能竟然实现了无障碍交流。除了英语和西班牙语外,还支持 40 余种不同语言的文本翻译。这种之前只在科幻片中存在的场景如今已成现实,而这一切都得益于机器翻译技术。
机器翻译 (machine translation),又称为自动翻译,是利用计算机把一种自然语言转变为另一种自然语言的过程。其研究是建立在语言学、数学和计算机科学这 3 门学科的基础之上。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。
机器翻译毫无疑问是一项被公认为具备广泛应用前景的技术方向,但纵观该技术的发展史却并非一帆风顺,其可行性和实用性曾不断遭受质疑。下面就让我们一起回顾机器翻译这项曾被视为天方夜谭的技术如何实现 “从无到有”,又有哪些前辈大牛们为它的进步做出过不可磨灭的贡献。
机器翻译的研究历史最早可以追溯到 20 世纪三四十年代。
20 世纪三十年代初,法国科学家 G.B. 阿尔楚尼提出了用机器来进行翻译的想法。
1946 年,世界上第一台现代电子计算机 ENIAC 诞生。随后不久,信息论的先驱、美国科学家 Warren Weaver 于 1947 年提出了利用计算机进行语言自动翻译的想法。1949 年,Warren Weaver 发表《翻译备忘录》,正式提出机器翻译的思想。
【开创期】
1954 年,美国乔治敦大学在 IBM 公司协同下,用 IBM-701 计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。
随后十年左右的时间内,机器翻译研究热度不断上升。美国、前苏联及一些欧洲国家均对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。
【沉寂期】
然而,正当一切有序推进之时,尚在萌芽中的 “机器翻译” 研究却遭受当头一棒。1964 年,美国科学院成立了语言自动处理咨询委员会 (Automatic Language Processing Advisory Committee)。委员会经过 2 年的研究,于 1966 年 11 月公布了一份名为《语言与机器》(简称 ALPAC 报告)的报告。
该报告全面否定了机器翻译的可行性,并宣称 “在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的”。建议停止对机器翻译项目的资金支持。受此报告影响,各类机器翻译项目锐减,机器翻译的研究出现了空前的萧条。
【复苏期】
进入二十世纪七十年代中后期,随着计算机技术和语言学的发展以及社会信息服务的需求,机器翻译才开始复苏并日渐繁荣。业界研发出了多种翻译系统,例如 Weinder、EURPOTRAA、TAUM-METEO 等。
其中于 1976 年由加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的 TAUM-METEO 系统,是机器翻译发展史上的一个里程碑,标志着机器翻译由复苏走向繁荣。
【发展期】
1993 年 IBM 的 Brown 和 Della Pietra 等人提出的基于词对齐的翻译模型。标志着现代统计机器翻译方法的诞生。
2003 年爱丁堡大学的 Koehn 提出短语翻译模型,使机器翻译效果显著提升,借助同时期 Franz Och 提出的对数线性模型及其权重训练方法,短语翻译模型在工业界开始广泛采用。
2005 年 David Chang 进一步提出了层次短语模型,同时还有多个大学和研究所在基于语法树的翻译模型方面研究也取得了长足的进步。
【繁荣期】
正是因为一代代科学家们不懈的努力,才让科幻一步步照进现实。
2011 年开始,伴随着语音识别、机器翻译技术的快速发展和经济全球化的需求,口语自动翻译研究成为当今信息处理领域新的研究热点。
Google、Microsoft 纷纷推出自己的新一代智能语音翻译产品,本文开头提到的聊天软件 skype 中使用的就是微软的机器翻译技术。
国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。我国的机器翻译技术也逐渐取得国际先进水平。
[dqr_code size="120" bgcolor="#fff"]