分类: 中文版

人工智能(AI)本身其实并不是一个新的概念。近年来,由于在计算能力和存储方面的支持技术大大提高,人工智能的发展也受到了诸多关注。互联网的爆炸式增长及其产生的大量数据也起了重要作用,因为人工智能的发展在很大程度上依赖于输入数据的数量和质量。

市场研究公司 CB Insights 发布的人工智能研究报告显示,2017 年全球人工智能创业公司共获得投资 152 亿美元,同比增长 141%。其中,48% 的资金流向中国,38% 流向了美国。2017 年,有 1100 家新的人工智能创业公司成立,人工智能正出现在各类商业模式之中。据市场分析机构 Gartner 预测,到 2020 年时,云服务市场(人工智能和数据管理的一个重要方面)的规模将达到 3830 亿美元。

虽然人工智能引发了许多关于设计和道德方面的讨论,但它已被看作一种新的生产要素,将对未来的全球秩序产生深远的影响,而关于人工智能的研究已成为一些大国优先考虑的发展战略。虽然有些企业已经在应用程序和服务领域实现了复杂的人工智能应用,但距离人工智能真正实现与人类进行有意义的交流还相差很远。在本地化、市场营销和翻译公司中,人工智能语言技术的运用在很大程度上取决于人工智能是否可以使用人类语言进行连贯地交流,其核心是对自然语言的处理,即对人类语言进行智能分析、提取要点,然后进行响应。

基于 AI 的语言工具

IBM Watson

Watson 是一个通过自然语言处理和机器学习,从非结构化数据中揭示洞察的技术平台。Watson Tone Analyzer 可以理解文字信息并分析其中想要表达的语气,它可以辨识出情感,如愉快、害怕、愤怒等,还可以从文字中识别出一个人的社交风格和写作风格。这些剖析的结果可用于个人通信、商务沟通、品牌服务、市场营销、公关管理以及自动联络中心管理等。

Textio

Textio 专门做特定情境下词汇和语言分析,它拥有强大的自然语言处理能力,除了能分析语言模式外,还能理解手写笔迹的细微差异。Textio 主要应用于人才招募领域的招聘信息,作为人工智能文书检验平台,这款产品在招聘广告发布之前通过文本分析技术帮助企业预估其文案成功的可能性。Twitter、Microsoft、Starbucks 等多家企业都使用 Textio 制作招聘文案。

Grammarly

Grammarly 是 2010 年推出的一款语法检查应用,使用机器学习算法为 690 万日常用户提供服务。Grammarly 功能强大,既能为初级用户提供词语拼写检查、同义词推荐等 5 大语法检查,又能为专业用户提供文章类型预判、原创性检查、单词推荐、以及文章校对等服务。

Grammarly 适合使用人群非常广泛,比如像经常从事英文编写、创作或是正在准备雅思、托福准备出国,亦或是在国内生活工作的朋友都可以把他当做提高英文写作能力的助手。

Atomic reach

Atomic Reach 公司发布了名为 Atomic 的人工智能系统,该系统基于人工智能神经网络,能够深度理解 23 种语言,除了为文章检查拼写和语法的错误,还能够在深入分析文章后提供写作相关的建议。

Atomic 人工智能平台可以帮助市场营销人员创作质量更高的文本内容,并且通过查看不同读者对某一特定文本的互动效果来收集数据,从而帮助用户在适当的时间面向适当的受众发布内容。

神经机器翻译(NMT)的最新进展

Facebook

以往机器翻译的进步,主要归功于大规模平行语料库(large-scale parallel corpora)的可用性。而 Facebook AI Research(FAIR)团队提出的 “基于短语和神经的无监督机器翻译” 模型,可在没有任何平行数据的情况下进行翻译。

在机器翻译中使用神经网络的最大问题是,它需要两种语言的句子对数据集。它适用于英语和法语等被广泛使用的语言,而对于其他语言的句子对则不适用。因此,对于那些低资源的语言来说,机器翻译中的深度学习能力就尤为重要。

Amazon

Amazon Research 在其发表的兩篇论文《A Neural Interlingua for Multilingual Machine Translation》和《Fast Lexically Constrained Decoding with Dynamic Beam Allocation for Neural Machine Translation》中,提出了通过 zero-shot 翻译探索一种 “真正的通用语言” 模型,以及针对特定术语实现一致 NMT 的方法。

Google

Google Brain 发表的关于神经机器翻译最新进展的论文《The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation》,为其内部研发的最新 NMT 模型奠定了基础,该模型结合了循环神经网络(RNN)、卷积神经网络(CNN),以及一种自我聚焦机制的变形。

结论

人工智能技术在近几年取得了长足的发展,也逐渐被应用到了越来越多的领域。人工智能处理人类语言大概有三种方法:即基于规则的机器翻译、基于实例的机器翻译和基于统计的翻译方法。但是,世界上的语言几千种,其中绝大多数语言之间都没有足够语料,因此,未来还要在无需语料库的机器翻译方面进行更多探索。

先进的自然语言处理技术要想在创建和理解内容方面达到人类的水平,首先需要深入研究人类大脑是如何工作的,而这个领域即使最好的神经科学家也感到困难,因为我们对人脑的思维方式几乎一无所知。一些人工智能领域的科学家正在研究如何让机器真正像人一样思考、像人一样处理语言。虽然 AlphaGo 克服了 “本能” 的因素,击败了世界冠军围棋选手李世石(Lee Sedol),但自然语言涉及语义、语境、用法等方面的考虑,即使在人类中有时也无法达成共识,更不用说机器能否正确理解了。

在当前技术下,虽然机器翻译的质量明显提升,误差也不断降低,机器将完成未来大部分的简单翻译需求,但对于那些细腻、多元、充满人文特质的复杂沟通以及专业化翻译,人工智能究竟能不能实现,还将取决于数学、语言学、计算机科学、神经认知科学等很多方向的进展。

 

本文选译自 CSOFT 白皮书《AI & LANGUAGE》,如需全文,请留言联系我们。

 

[dqr_code size="120" bgcolor="#fff"]