第一时间get全球最新科技知识与数据
下载钛媒体客户端

扫描下载App

从Twitter、Amazon学习,90岁的《牛津英语词典》这样拥抱数字化

摘要: 随着科技的进步,语言的“迭代”速度也在加快,如何处理大量的语料?

题图来源:视觉中国

题图来源:视觉中国

现在很少有人会知道,英语最开始是只是属于盎格鲁-撒克逊(Anglo-Saxon)民族的语言,因为现代英语已经演变成了一种全球化“混合语言”。

“预计在2020年,中国的英语学习人数将会超过5亿。这意味着在中国英语学习者的群体将超越美国总人口数。而在全球范围内,这一群体数字将会是20亿。”日前,牛津大学出版社全球业务总裁及词典部总裁Casper Grathwohl 在接受钛媒体专访时说。

英语的全球化普及,1928年问世的牛津大学出版社的《牛津英语词典》(Oxford English Dictionary,OED)功不可没。它一直被视为最全面和权威的英语词典。不少对英语词汇的学术研究都以 OED 作为切入点。而词典对词汇拼法的要求,影响了不同地区的书面英语。
1928 《牛津英语大词典》 第一版(简装)

1928 《牛津英语大词典》 第一版(简装)

牛津大学出版社涉足印刷业最早可以追溯到1480年,是世界第二古老的出版社,仅次于英国剑桥大学出版社。一开始,只作为印刷圣经、祈祷书和学术著作的主要印刷商。在19世纪中后期,牛津大学出版社承印了《牛津英语词典》的项目,其业务也不断扩充,包括英语语言文字教学书籍等,自此便开启了全球化业务拓展的道路。

Grathwohl 已经在牛津大学出版社工作超过20年。从纸质图书印刷到现在的在线词典,他亲眼见证了牛津大学出版社的历史,也见证了整个科技演变的过程及其对行业带来的影响。

经过九十年的发展,OED 多语言词典的编撰有一套精密而复杂的流程。Grathwohl 介绍说,首先在搜集语料的过程中,要了解细分市场的需求,接着,他们会根据市场需求做针对性的调研并且出具调研报告。在此基础上,团队会先做一些样本,利用样本做面对面小组的深入调研,以找到解决市场需求最佳方式。

完成以上学术方面的工作之后,出版社会还要做一些财务上的分析,判断是否具备足够大的细分市场,预计未来是否有足够的销售额,以及以是以电子版还是纸质版的形式面世。

在 Grathwohl 的推动下,“牛津英语词典”已经从纸质出版物转型成为了语言数据服务品牌。
。

牛津大学出版社全球业务总裁及词典部总裁Casper Grathwohl

“我们并不是想要把纸质的字典变成电子的字典,不是一个简单的重复过程,而是希望字典的内容和使用,能够融合在语言学习的过程当中。”Grathwohl 说。

最开始,OED 选择了和美国硅谷的一些全球性的科技公司进行合作。具体操作的手法是,将牛津大学出版社搜集的所有的语料,包括日常生活中接触到的英语词汇进行加工,把它们变成智能化的语言数据,除了词汇、语句、词义之外,还会打标签、加备注。

全球性的科技公司利用这些智能语言数据,开发成各种 APP 等数字产品和服务,增强英语学习者的日常体验。

在将语言数字化和智能化的过程中,最关键的是“过滤”——筛选出最精准和最常被大家使用的语言到底是什么。在虚拟世界中,数据非常庞大。通过累积专业的语料库,以及专业语言学家处理的语言信息,同时基于一些语义规则来对语言进行分析。同时,OED团队还会利用自然语言处理等科技手段在庞大的语料库抓取所需信息。

“为什么说这是非常困难的部分呢?因为我们处在与三十年前完全不同的情境,以往我们做编撰的时候,还会觉得素材不够,现在我们已经被大量的语言所淹没,数据有点太多了。”Grathwohl 告诉钛媒体。

这也是他们选择与一些大型的全球性科技公司合作的原因。出版社将语言数据给到科技公司,帮助科技公司的 AI 进行学习,也协助他们进行一些翻译工作。与此同时,大型的科技公司也会建立一些新的工具分析实际语言使用情况,然后把数据反馈给出版社,让 Grathwohl 团队后期做出更加精准、更加符合现在实际情况的语言数据库,这是一个双向互赢的过程。

而随着科技的进步,语言的“迭代”速度也在加快,如何处理大量的语料?钛媒体了解到,Grathwohl 团队目前主要从新闻报纸资料当中获取,也会参照 Twitter 这类社交网络,甚至还会关注到类似 Amazon 的电商评论,还有当下电影文本中使用的语言。

被广泛使用语言因庞杂的数据而烦恼,但对于还在存活的小语种世界中的人们而言,这又是另外一个世界。当下只有15种左右的语言在数字化的世界中拥有大量数据和使用者。据不完全统计,全球拥有超过300种语言,还有超过100种语言存活,并且在线下被大量使用着,这些语言正缺失于高度发展的数字化世界里。

比如祖鲁语,它是南非的一种语言,目前可能会有一亿人在使用,孟加拉语有超过七千万人在使用,但是它没有任何一个电子或者是智能化的语料库和语言数据。

因为语言缺少数据化的过程,这些语言的使用者们,不仅不能用母语上网、使用智能手机,甚至是发简讯。在虚拟世界中,他们只能用第二语言沟通和学习。牛津大学出版社目前正着手把这些语言的语料库或者是智能语言数据建立起来。

“这是丰富的语言世界的遗憾。我们非常希望丰富多语言的环境能够被保存下来,世界上的人都能够享有丰富的语言环境。”Grathwohl 对钛媒体表示。

目前,牛津大学出版社正积极推动小语种的智能语言数据。牛津做的就是利用自身科研的优势,将这些小语种智能化,把数据给到大型的科技公司。这样一来,科技公司就可以利用小语种进行个性化和本地化的开放,利用技术让这些小语种拥有自己语言的虚拟应用环境。(本文首发钛媒体,作者/李程程)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

本文系钛媒体原创,未经授权不得使用,如需获取转载授权,请点击这里
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

李程程
李程程

钛媒体记者,chengchengli@tmtpost.com

评论(0

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈