在被称为AI 落地元年的2018年,以“AI+视觉”为主的CV(Computer Vision)领域大放异彩。不论是通过图像、人脸识别向安防、自动驾驶、零售等领域的广泛拓张,还是商汤、云从、旷视、依图“CV四小巨头”的兴起,计算机视觉已成为人工智能发展进程中实现领先的一条赛道。
然而,与视觉识别相对的语言、语义识别领域,即NLP(Natural Language Processing 自然语言处理),虽然起源时间更早,但发展程度与落地表现却稍逊于前者。
早在“人工智能”概念在1956年达特茅斯会议提出后,科学家们开始寄希望于用计算机模拟大脑理解语言学的过程。1962年,“机器翻译与计算语言学学会”(后更名为国际计算机语言学委员会,简称“ACL”)在美国成立,标志着学界对机器翻译、语义理解等AI技术深入研究的开端。
不过,按照中科院研究院博士生导师宗成庆的说法,“机器翻译遇到了很多难以克服的语义障碍,甚至一度进入低迷状态。”
2013年,宗成庆成为国内至今唯一一位加入 ACL 的华人科学家。在他看来,在语音语义理解的机器翻译操作中,需要面临诸如“口音、标点识别不准导致语句翻译出错”、“政治经济等专业术语机器无法胜任”等诸多挑战。
然而,随着底层技术的持续突破,与商用场景的进一步扩展,包含语音交互、TTS(文本转换)等内容的NLP也即将迎来新的“春天”。
“接下来这两年,NLP领域一定有更多机会。” 微软亚洲研究院自然语言计算组资深研究员韦福如在近期对钛媒体表示。
从武汉大学计算机学院获得博士学位,到2010年加入微软亚洲研究院自然语言计算组工作至今,韦福如已在NLP领域从事十年有余。今年春节期间,微软平台联合央视新闻推出H5交互产品《你的生活,AI为你唱作》,就融入了韦福如所在团队深耕多年的NLP技术。
钛媒体也试用了这则H5应用:
在上传照片后,系统会对照片内容如环境、人物、颜色、表情等进行分析;然后基于对照片的理解,歌词创作系统会自动谱写符合该照片内容的歌词;最后,由语音合成技术模拟的央视主持人康辉或微软智能女声晓晓,则可以根据歌词内容结合配乐伴奏进行演唱,用户就得到了一首专属定制的MP3歌曲。
“图片-歌词转化”是韦福如团队负责攻克的重点环节。当中的难点,首先在于对用户输入图片的理解,比如年纪相仿的男女是否可以对应爱情,或者是大笑的表情可以对应相关的歌词内容等;
再一个难点是对歌词基调的把握——由于该产品推出时机是猪年春节,微软团队希望“这一H5产品表达出的感情基调是更积极的”——这就需要技术人员在后端算法上进行调试。
事实上,除了韦福如团队所代表的自然语言处理,《你的生活,AI为你唱作》中还包含了微软在去年发布的深度神经网络语音合成服务、以及在后端支持数据高并发的微软Azure云服务等,可以说,以这则H5为代表的微软跨部门方案协作背后,是由整个微软NLP、语音合成、云服务等完整方案的商用缩影。
技术突破
关于NLP 的发展阻力,目前担任微软亚洲研究院副院长的周明曾谈到技术“阈值”的理论。
周明拿图像识别中的安防场景举例,由于该领域“人证比对”的需求极度旺盛,一旦深度学习将计算机视觉的水平提高至一定的阈值,该场景的巨大需求就会立刻激活。
然而,由于NLP的技术难度实在太大,机器翻译水平始终没能达到该场景的阈值,再加上自然语言处理的场景并不像安防那样有着迫切需求,NLP始终在落地到商业化的路径上面临挑战。
为了提升NLP的技术阈值,韦福如也带领团队始终专注在机器阅读理解上的深入研究和系统开发。
2018年1月,在斯坦福大学发起的SQuAD文本理解挑战赛中,韦福如所带领的团队所开发的端到端的深度神经网络模型r-net在EM值上以82.650的最高分占据榜首,首次超越人类成绩82.304。
此后,韦福如团队再次获得突破,升级后的nlnet模型在EM值和F1值两个维度上,以85.954和91.677的分数首次全面超越人类在SQuAD数据集上的表现。2019年1月,他们基于BERT开发的最新系统又在SQuAD 2.0和交互式、多轮阅读理解数据集CoQA上名列榜首。
这样的技术折射到实际案例中,韦福如希望能借助通用的自然语言模型,让机器学会“无监督”式的自我学习。就拿刚才提到的《AI 唱作》H5来说,在韦福如的规划下,当前期积累一定数据后,机器可以根据用户输入的照片,自行具备较强的文字理解与组织能力,而不是依靠人为的标注数据。
不过,对于NLP目前力所能及的技术范围,韦福如也对钛媒体表示,“机器阅读理解超越人类”仍需一段时日。
“在SQuAD超越人类成绩只能说明模型可以拟合这样的结果,在特定的数据集和评测标准下,算法可以做到普通人类(更具体来说是标注人员)的水平,而不是说现在机器理解自然语言比人类强。”韦福如在此前接受采访时表示。
商用逐步落地
为了加快技术落地的效率,微软内部除了在底层技术研发取得突破外,也颇为注重技术产品化的输出形式。
去年9月,微软发布了企业级定制语音合成的平台,让企业可以根据他们想要的音色定制声音。去年12月,微软在语音产品上再次取得重大技术突破——推出深度神经网络语音合成技术。
这项看起来晦涩的技术名词,实际上就是我们使用高德、百度地图时郭德纲、林志玲等明星声音的由来。通过深度神经网络语音合成技术,明星只需要录制有限的关键语句,即可让机器合成、并学习扩展至更多的语料。
“很多过去做不到的事情,现在可以做到了。”微软亚洲互联网工程院语音组产品经理刘越颖对钛媒体表示,她举例道,诸如语气、情感方面机器拟人的自然度、模型的稳定度都得到了明显的提升;同时,平台也整合了定制化的能力,可以根据企业需求将不同的声音风格赋予不同的场景。
另外,语音合成技术对数据量的减少,也成为这项技术愈发受到企业青睐的原因之一。
以此次《AI 唱作》H5为例,为了获得央视主持人康辉的语音合成声音,微软只需要康辉录制不到十首歌,就可以用相似的风格演绎成千上万首歌,“比友商减少了十倍”。而这种对语音训练数据的减少,直接刺激了企业定制语音的需求。
目前,微软已经利用深度神经网络语音合成技术拿下多个客户,比如教育领域的Roobo 机器人;智能硬件中的小米,其最新发布的小米9手机中,来自歌手王源的声音助理,就是由微软通过语音合成制作而成。
“这种定制化语音的需求正愈加明显,从早期定制地图的语音,到现在的呼叫中心,AI在线老师等。每个公司都希望有一个自己的形象,这个形象不仅仅是基于图像层面的,同时也是三维的。”刘越颖告诉钛媒体。(本文首发钛媒体,作者/苏建勋)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
因爲這些機器視覺的AI應用容錯率比較高,能湊合用,但語音識別就不行,說錯一點或語無倫次一般人很難容忍,只能用語固定口令的應用。