DeepNLP 科普贴:既是地下的富矿,也是“魔鬼”的居所

摘要: 深度学习+自然语言处理,这对基友或将释放出万千魔鬼和无尽财富。

很长时间当中,人工智能与计算机科学、语言学之间有一个交叉学科始终被市场热切关注,那就是NLP(natural language processing),即自然语言处理。

这项技术的基本内涵,是指人类与计算机之间用自然语言进行有效通信的各种理论和方法。说白了就是如何让机器听懂人类说什么,以及如何让机器说人类能听懂的话。这两个方面也被称为NLP的两个核心关键领域:自然语言理解和自然语言生成。

回想一下,我们可能会发现NLP对于推动人工智能产业发展有着举足轻重的作用。因为它可以直接作用于机器翻译、语音输入等领域。相比于人工智能和机器人领域那些“只闻其声不见其人”的算法和神经网络,翻译和语言输入法可是货真价实的商业应用。

所以作为这些应用领域的主角,NLP一直在人工智能产业化中扮演着重要角色。但有很多人认为,NLP在整个AI体系中是相对孤立的,应用范围也相对狭窄。

但随着学界一种新的跨界思维开始流行起来,这种情况仿佛有了改观:将流行的深度学习技术(deep learning)与NLP相结合,打造出更深度自然语言处理(DeepNLP)成为了火爆的AI概念。

而真正令人在意的是,这个概念背后指向的应用性近乎于是无限广泛的,甚至有人认为人类将史无前例地打开语言这个魔鬼迷宫,将人类的某些能力拉升到新的维度。

究竟有没有这么神当然不好说,但DeepNLP的潜在价值绝对不凡。

为了让大家更好理解DeepNLP的涵义与应用性,我们尝试尽可能抛弃掉所有函数和语言学公式,并且用一种比喻来理解这项技术的真实情况:挖矿。

假设DeepNLP是一座深埋在地下的富矿,那么想要得到它首先要翻越大块盐碱。而矿藏的最深处,可能就是魔鬼的居所。

从NLP到DeepNLP:人工智能不仅可以翻译、速记、问答

先来解释一下NLP与DeepNLP的不同之处。

自从上世界八十年代NLP概念被提出以来,经过了长时间的演进和迭代。其技术本身的变化非常显著。但其基本运作模式却是相同的。一般来说,NLP体系的工作对象都是人类语言。一段语言样本进入NLP系统之后,将经过系统的符号化处理,将人类语言改写成运算语言;然后通过运算能力进行模块化生成,根据不同目标进行语言处理;最终,生成的模块输出为结果,整个语言处理任务就完成了。

这样的语言处理体系,按照目的来区分一般有三种应用:一是语音文本转化为文字文本,也就是我们今天常用的语音输入;其二是不同语言之间的转化,也就是机器翻译;第三种是语言文本理解后给出相应回馈,也就是siri这样的聊天机器人。

NLP的作用,基本就是在这三种应用当中让语言处理更加自然、合理。而随着深度学习技术的不断发展,NLP似乎可以迎来一场全面的革命。

NLP长久以来存在的问题,就是人类的不同语言体系确实太复杂了,经典计算网络根本无法完全处理。尤其语义、语言情感、语言氛围以及歧义、多义等内容,更是难以被机器理解。

而目前火爆的深度学习技术,则可以用非监督式或半监督式的特征学习,来自主提取高效算法替代传统算法。换言之,深度学习中的某些技术或许可以让NLP自主理解人类语言中的具体特征和复杂语言材料。这就给NLP的革命打开了一线遐想。

事实也确实如此,随着卷积神经网络、递归神经网络、迁移学习等技术的成熟,NLP可以主动理解的算法越来越多。比如对关键词的归纳、对句子上下文关系的理解,以及通过训练结果去自主理解其他语料和语言情况。

总之,深度学习技术加上NLP,把人工智能理解人类语言推向了理论上的新高度。甚至有学者提出了DeepNLP这个新概念。加入深度学习的NLP体系,可以在表达适配度,可训练性,泛化性,模块化、可迁移性等领域上较比原有NLP具有强烈的优势。

而所谓DeepNLP的美梦成真,是从一些新工具投入使用开始的。

发现新矿层:词向量等思维模块带来的冲击

这一部分细说起来可能会有些枯燥生涩,但事实上这部分对于理解DeepNLP带来的商业可能是至关重要的。所以我们还是要简单聊一下。

话说自然语言处理的逻辑,是将人类语言转化为运算语言。但在传统计算模式下的语言转化,是将不同词汇转化为相互间完全没有联系的符号编码。

这种方式对于机器运算本身没什么问题。但对于让机器语言更好地贴近理解人类语言就会有很多障碍。比如带来的运算量非常复杂,一旦需要对语义、句法、语言回指这样的复杂问题进行计算,就会难以为继。

另一方面,这种转化模式之后,词、句、语法间是完全没有联系的。这也就难以让机器学习人类语言间的联系,产生自主理解的学习训练效果。

而有一些新技术的出现,正在改变这种现状。比如一种叫做“词向量”的思维模块,这种技术把人类语言转化为机器语言时,对每一个词进行了有联系的界定。即将词汇处理成向量,并且向量间的相对相似度和语义相似度是相关的。

比如说人,会关联着男人、女人、老人、成年人等词。这些词相互有联系,并且可以被机器理解。这也就将人类语言体系重新展现在了机器面前,给了机器学习全新的理解方式。

词向量只是DeepNLP技术中的一种解决方式,并且各种词向量也在不断进化当中。这些让机器重新理解人类语言的技术,可以被视作全新的探测器。有了这些工具,语言应用的富矿就暴露在了人类面前。

潘神的迷宫:DeepNLP的技术盐碱地

当然了,就像深度学习在众多领域的应用一样。DeepNLP达成应用也绝非朝夕之功,在开始近乎癫狂的应用想象之前,我们还是要泼一盆冷水。

虽然帮助机器深度理解人类语言的工具和技术越来越多,但语言这个神奇的王国依然保留着大块处女地。目前的精神网络和深度学习算法,还有大量的语料和语言问题无法处理。这就像我们知道某处深山中有大量金矿,但勘探队与其之间依旧隔着大片的盐碱地和坚硬岩石。

比如说语言歧义性问题,就是目前的词向量、词嵌入技术的“噩梦”。一个词可以有很多种意思,是人类不同语言的“通病”。而人类理解这些多义词基本依靠对语境和言语情感的理解。但机器学习对人类语言进行重新编码的时候,却无可避免地将同义词进行错误编码。甚至从而产生对整体语义的歧义理解。

再比如不同语种的问题。字母文字和表意文字之间的逻辑、结构和语境是完全不同的,甚至近似语言之间的语法结构也可以截然不同。深度学习体系追随的是语法内部的逻辑体系,而追寻语言本身的通路,在跨语种时可能出现巨大的障碍。

还有一个问题,是DeepNLP究竟如何训练。语言的复杂性,让复杂处理后的语言结果很难被判定。一种判定结果也很难成为其他语言处理结果的指标。因此训练样本的缺少适配性,让弱监督与无监督的NLP非常困难。

当然了,问题该有是有,但并不妨碍我们看到DeepNLP的宏大价值。语言这令人着迷的东西,如果真正为人工智能所掌握,带来的效果近乎没有尽头。

越过山岩之后的富矿:DeepNLP的应用甜梦

DeepNLP的应用价值可以非常复杂,如果算上与其他智能体系结合的应用场景,那近乎是个无穷数。但这里可以基本推测几个DeepNLP应用场景,相信大家就会明白为什么将之称为“富矿”。

一、复杂语言目的提炼与反向生成:通过循环神经网络与卷积神经网络,NLP提取复杂语言材料的核心概念将成为可能。这个能力的作用非常多,比如全面接管客户服务。而复杂语言提炼还可以重新定义模糊搜索和电商搜索。人只需要描述自己对信息或者商品的需求,NLP就可以自主提炼并进行精准定位。

而这个能力的反向生成也十分重要,深度学习体系可以帮助NLP根据人类需求自主生成文字语言材料,就预示着根据某个需求进行文本与语音创作成为可能。通过人类语言训练反向影响AI写作,也是一个十分有意思的破局思路。

二、基于语言的逻辑推理与情感判断:通过对人类语言环境中的复杂关系进行迁移学习,可以达成另外一些有意思的应用可能。比如让机器学习到人类语言中的逻辑和情感。先不提是否赋予机器这些东西,至少这将有机会让机器从人类的语言中预测结果,达成机器推理甚至情感判断。

从听懂你说话的机器人,变成能够预测你目的、读懂你的情绪的机器人,显然是一场巨大的商机。

三、文本关系的提取与分类:DeepNLP的另一个主攻方向,是对文本关系的理解。从语言环境、语位素到语言使用习惯和语言情感,人类的语言其实根植于无数文本关系之中。如果不能理解这些关系,那么AI就永远是只能进行简单交互的机器。

而通过深度学习技术进行自然语言处理,却可能让机器理解这些关系。于是复杂的文本翻译将成为可能,整本书的瞬间翻译似乎也不是难事。而方言、发声问题下的人机语音交互可能达成。当然了,这都仅仅是这个技术达成所带来应用的一小部分。

四、图像的识别与描述:通过对语言材料的迁移学习,让机器读懂人类通过双眼与自然界间的交互,也是一个充满想象力的区域。而循环神经网络等技术正在帮助NLP打开这种可能。通过反复训练AI阅读人类对图像的描述,机器将生成自主描述图像、归类解释图像的能力。

这让AI拥有了可以自己看东西,并转化为人类语言介质的能力。通过摄像头,机器将可以随时理解实物并进行分类汇总。这首先让人类的公共安全警报、搜救、探测事业有了彻底改革,更深处或许将指向机器对自然万物的自我解读。

这些应用听起来都非常魔幻,而这正是DeepNLP的可怕之处。一旦高强度自主学习的NLP与人类信息接入,那绝不是若干应用所能描述的技术变革。

矿石之外的石油:DeepNLP结合大数据

在开采DeepNLP这座矿山之外,我们显然能够发现这项技术与大数据体系结合的奇妙化反。这或许将在矿井之外再打开一座油田。

首先要知道,目前大数据资源中的很大一部分,都是以人类语言作为基本单位的。这些数据指向着多种多样的目的和结果,但其借助人类语言的特点却是相同的。在这一点上,原本普通廉价的人类语言却可以成为DeepNLP非常有效的训练材料。

而反过来说,DeepNLP技术的成熟,也可以帮助人类重新理解和使用已有的大数据资源。比如用户对某一产品的使用体会数据。原本的数据判别系统只能推测出满意级别、改进点等几个数据。因为它的逻辑是提取关键词和打分。而这显然就忽视了用户的个体性。通过DeepNLP去处理客户数据,或许可以判断每一个用户的受访环境、受访回答真实性,甚至根据语气和描述推断出用户没有提到的产品改进建议。

这里有一个逻辑推演,那就是在足够成熟的DeepNLP体系、足够大的数据承载量以及足够强大的运算能力(比如相对成熟的量子计算)支撑下,将有可能对人类的每一句话进行推演和预测,推断人类生活中每一个细节的原因与结果。电影《少数派报告》中的预测犯罪机器人,或许就是以此为科学解释。

语言迷宫,是人类长期以来自身都无法破解的牢笼。一个优秀的演讲者、魅力十足的推销员、套路诡谲的骗子,往往有无法解释的能力达成目标。而依靠的没有其他东西,就是语言。一旦这种能力为AI所获得,释放出的当然有数不胜数的机遇财富,但同时出笼的,或许还有一位名唤“语言”的恐怖魔鬼。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

本文系作者 脑极体 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

脑极体
脑极体

写让你脑洞大开且能看懂的人工智能、流媒体、海外科技

评论(2

  • Jason_FNY Jason_FNY 2017-06-15 12:25 via android

    有料有识有想象

    0
    0
    回复
  • 钛pXaiAy 钛pXaiAy 2017-06-15 12:04 via pc

    神棍文

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈