2024CTIS-文章详情页顶部

搜索的未来:冲破数字围城

每时每刻不断增加的海量数据正在形成日渐高耸的数据之墙,在关键字搜索之外,更智能的信息匹配将是越来越明确的方向。

当不到十岁的阿米特·辛格哈尔静静地坐在黑白电视机前,观看热播剧《星际迷航》中主人公Kirk和Spock与计算机交谈的画面时,这一幕深深地嵌入了他幼小的脑海里,那是发生在20世纪70年代末印度一户普通人家中的场景。

多年以后,已经是谷歌搜索算法首席科学家兼谷歌高级副总裁的辛格哈尔从语言学研究生毕业之后才发现:一直以来《星际迷航》在他的脑海中完全等同于那伴随着杂音的黑白电视画面,这种印象根深蒂固,而实际上,在更多美国人心中,《星际迷航》其实是一本科幻小说。

“对于拥有智慧的人来说,穷尽一个词语背后所代表的丰富而不同的语义都是一件不容易的事情,可见,要教会计算机理解人类的语言,这真的是一个难题。”阿米特·辛格哈尔感慨道。

但是对于辛格哈尔的团队和千千万万的搜索工程师们来说,让计算机更加智能地进行识别是一件迫在眉睫的事情,因为无时无刻不在产生的海量数据正在形成一座数字围城,它让搜索变得困难,让有价值的信息越来越难以被寻找。

今天,谷歌独立URL索引数量超过了惊人的1万亿,而用户获得一次满意搜索的时间却不能超过1秒;淘宝商品数高达8亿,每天有6000万用户登录淘宝寻找商品,最终每天要促成800万包裹量的交易;美国最大的招聘网站Monster的招聘网络遍及55个国家和地区,每天新增简历高达2-3万、同时却要实现数量庞大的职位和求职者精准匹配……

如果说,在5年之前这些企业完全有理由仅仅为这些漂亮的数据而尽情欢呼的话,那么在今天,他们就需要多一份忧虑——多年前,他们走进数据构建的围城,靠着先进的算法在这些数据面前游刃有余;如今每时每刻不断增加的海量数据却开始让他们感到窒息,越来越高的数据之墙让他们开始感到了低效和无奈,他们必须想办法寻求突围。

传统搜索的瓶颈

对于Monster软件工程经理骆鋆来说,每天置身于数据围城让它深有感触。曾几何时,关键字搜索是Monster在网络招聘领域所向披靡的利器,但是近些年来,当初的技术带来的高效和便捷仿佛变了味道。

“传统的搜索一般是关键词搜索,对于语义的了解不足,他不能对每个关键词的权重做出区别处理;在搜索结果上,也无法区分过去的经验和最近的经验,这将直接影响搜索结果排序的准确性。比如说,一个人在两年之前曾经做过销售,互联网上留下了他曾经的痕迹,现在也许早已转行不干了,但传统的关键词搜索很容易认为他现在仍在做着销售。”骆鋆说。

另一方面,骆鋆认为,网络招聘的一个基础就是要能够理解用户的核心意图,但是由于应聘者文化和知识背景的不同,同样的职位他们可能会用不同的词语来表达。比如说,同样是指“软件工程师”,有的人把它叫做程序员,而在港台甚至会称呼他为“软体工程师”,这样的话,如果还是按照字面的关键词搜索,招聘方和应聘者的需求就很难契合。

同样对现有搜索技术感到不满足的还有淘宝。

据淘宝搜索高级技术专家,一淘推荐算法负责人孙健介绍,淘宝平台上大概有8亿商品,5亿注册用户,包裹交易量达800万,相当于全中国每日快递包裹数量的一半。“如果把淘宝平台设想成为一个巨大的搜索引擎,面对这么海量的实时变化的商品交易信息,也是会傻眼的。”孙健说。

“那么面对这么海量的信息处理问题,我们就需要着力去做两件事情,一个是构建一个大规模的电子商务产品库,另一个则是构建一个大规模的语义知识库,在传统的关键词之外,我们需要重新为每一个词语构建属于他们的关系。比如,圆明园和海淀在物理上是从属关系,本田和宝马同时属于汽车品牌下的子集,在淘宝的平台上,我们挖掘了800多万的语义关系,这种知识库的构建是我们打造智能搜索技术的基础,否则单单是靠原来的那种关键字搜索,是无法胜任淘宝平台上每天产生的海量商品和交易信息的。”孙健说道。

即便是现在被人认为有可能会取代关键字搜索的智能推荐,在技术上仍然存在不完善的地方。

目前在电子商务领域做推荐的通用做法是先去构建商品库,对各类信息归类整理,但是其中有一个解决的并不好的问题就是信息的实时性。“首先智能推荐的前提是必须有实时的最新的数据,如果是拿3年前的数据来给用户做推荐可能就会出问题。最近微博上有人抱怨亚马逊的推荐不准,明明几个月前刚刚买了手机,当他再去购物的时候还会被推荐手机,这就会破坏用户体验。”专注于为电子商务企业提供第三方兴趣推荐服务的百分点科技副总裁张韶峰说。

正如Facebook COO雪莉·桑德伯格 早在2010年就曾预言道,未来所有的网站必将实现个性化,否则就会在5年之内被淘汰,而其中的关键就是网站要能够智能地匹配用户的偏好信息。传统的关键字搜索显然无法做到这一点。

搜索的智能进化

几个世纪前,人类社会还是数据为王的时代,一个人如果识字,会阅读,知道比别人更多的事实,那么他在他的时代中就拥有巨大的优势,然而现在,这些门槛正在被技术逐渐抹平:一个人,只要轻敲几下键盘,就能够得到他想要了解的一切数据。

“这是伟大的进步,但是这并不够,如何将片段化的数据集中起来转化成有用的信息,如何将有用的信息转化成知识,这些知识如何在最终转化成智慧,这些才是搜索应该做的事情。”谷歌高级副总裁辛格哈尔说。

在谷歌看来,从数据到信息到知识再到最终的智慧是一个漫长而伟大的愿景,如今的搜索技术所能达到的只是将片段化的数据转化成有用的信息这一阶段,若想让信息能够直接通向知识,搜索技术必须继续进化。

“比如,如果你询问谷歌类似‘帝国大厦有多高?’的问题,谷歌将提供搜索结果页面上的最佳猜想答案,将您链接到该知识点。在未来,你问谷歌一个问题,我们会直接提供答案,而不只是仅仅给你相关的链接。”辛格哈尔解释道。

对于谷歌的搜索团队来说,这就是他们目前正在尝试的方向,将搜索引擎变成一个知识引擎——未来的某一天实现智慧引擎。

让搜索更加聪明,这也意味这搜索引擎除了能够对文本进行语义分析之外,还要能够处理音频,图片甚至视频这些更加复杂的信息载体。比如,当你在旅游中见到一种不知名的花,你很难用语言去描述它,但你似乎又在哪里见过,这个时候你无法通过输入文字的方式去搜寻你想要的结果;当你看到一辆路边疾驰而过令你心仪的汽车,你被它的外观深深吸引却无法想起有关它从品牌到型号的任何线索,传统的搜索看起来就有点捉襟见肘了。

不过在今天,这些情况并非没有解决的可能。谷歌就曾推出过按图搜索的功能,当用户看到似曾相识的图片时不需要绞尽脑汁去想如何描述它,而是可以直接用图片进行搜索。

在搜狗跨媒体搜索研发部高级经理佟子健看来,搜索技术的出现,让用户可以通过主动描述自己的需求获取信息,但是这并不符合用户“懒”的天性,最好的搜索应该是能够理解用户潜在的需求,让它在搜索时做的动作越少越好,最理想的状态就是推荐。

比如,当浏览到一篇感兴趣的新闻时,用户无需考虑如何提炼新闻事件的搜索词,而是由推荐引擎向用户推荐这篇新闻事件的来龙去脉、最新进展和新闻图片,直接满足用户潜在的延伸阅读需求。

除此之外,语音识别技术的成熟在与语义分析技术更好地融合之后,未来对音频的搜索也会变得更加高效,不仅是音频,即便是信息量无比庞大的视频依然可以通过技术实现更加精准的搜索。例如,YouTube就已经开始尝试对视频中的信息进行更加精准的搜索和甄别。比如一个用户上传的视频中如果包含一首歌,这个歌如果是唱片公司的产权,系统就会识别出来,禁止视频的上传,防止盗版现象的发生。

尽管这些尝试只是一个开始,但我们已经可以看见能够解决当前海量信息搜索的人工智能萌芽了。“这意味着搜索需要超越网页上的文字,真正地了解人们的搜索意图,地点和事物——以及它们之间的相互联系。人类的大脑天生就能处理这些,但对于电脑,这就涉及到人工智能的问题。”谷歌高级副总裁辛格哈尔说。

冲破围城之后

当技术的进步冲破了海量数据构建的围城之后,搜索与人的关系将会是怎样呢?

如果按照谷歌定义的搜索从数据到信息到知识再到智慧的四个阶段的话,如今在将数据转化成信息的过程中,我们已经取得了重大的进步,语义技术的进一步发展将会让当今搜索技术面对海量信息的窘境得到改善,当搜索技术与信息量的天平发生倾斜之后,理想中的知识引擎甚至智慧引擎将会逐渐到来。

举例来说,今天如果你想搜索“世界上最深的10个湖”,如果不是恰好有人已经整理出了这个排名,你需要做非常大量的搜索工作才能把它们搜全。目前的搜索引擎智能程度还没有达到那么高的程度,理解不了你关于湖的问题,比如明白湖是什么意思,湖是有深度的水域,然后把这些细节信息综合成你需要的信息列表。但在未来,如果一款搜索引擎,它能够理解有湖的含义,理解湖的其中一个属性是深度,当有人想知道“10个最深的湖”时,它能理解他们其实想要的是一份有关湖的排名,这便是知识引擎的雏形了。

而对于阿米特·辛格哈尔来说,尽管已经从事搜索技术20多年,但迄今为止搜索还没有一个最令他感到激动的突破,因为他所期望的搜索形态属于未来。辛格哈尔相信,搜索的“圣杯”是对人类意图的真正理解。如果谷歌能够真正明白你的意思,它就能够即刻为你提供准确可靠的信息——甚至有时候是在你完全还没意识到之前。

“对我来说,最让我激动的可能是看到我梦寐以求的搜索引擎,一台“星际迷航”式的设备,它可以全天候的帮助和指导我,无需请求就直接告诉我接下来要做什么、该怎么做。它相当智能,知道路上交通堵塞将会使我下一场会议迟到,所以提醒我备足时间,并提供导航帮助我准时到达。它还可以帮我为孩子的生日做准备,比如,它能感知到什么样的礼物能让孩子开心、知道我在哪买这些礼物最划算——当然它会告诉我怎么去这家商店。”辛格哈尔说。

本文系作者 wangwei 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 我感觉这种智能技术将在工业航空航天领域发挥更大的作用。应用在生活领域应该是与物联网结合,互联网只是一小部分。并且科幻般的应用也要受限于能源与新材料的制约。

    回复 2012.06.19 · via pc
  • 搜索的未来应该是十分光明的。特别是进入mi时代后,ugc的内容空前暴涨。就需要从形式(语音、文字、二维码等)和算法上优化。

    回复 2012.06.18 · via pc
  • 与人类生活密切相关为前提,极大改善人们的生活方式 水准 提供便利是未来所有企业必将面临的一个突破!

    回复 2012.06.19 · via pc
  • 搜索也要人工智能,我相信有一天,我们会跟电脑对话,人工智能会成为我们生活的一部分,到时候,我们会搜索到我们想要的东西,电脑会知道我们想要什么,电脑会成为能够和人类交流的另一个物种。

    回复 2012.06.19 · via pc
  • 好厉害!

    回复 2012.06.18 · via pc
  • 智能匹配,才能让搜索变得更聪明。

    回复 2013.03.31 · via pc
  • SIRI在朝这个方向发展!

    回复 2012.06.25 · via pc
  • 中国人的思维好像总是比美国人的思维落后一点 为什么!

    回复 2012.06.18 · via pc

快报

更多

22:56

万丰奥威:互动易回复存在误导性陈述,公司及董事会秘书收到浙江证监局警示函

22:54

立案调查14件、多收取的燃气费将全额退款,重庆通报燃气费多计多收问题

22:46

玻璃主力合约日内涨幅扩大至2%,现报1537元/吨

22:42

中印尼高级别对话合作机制举行第四次会议

22:34

派拉蒙环球大涨超11%,索尼与阿波罗洽谈组团对其进行收购

22:32

美联储古尔斯比:将需要更长时间才能将通胀降至2%的目标

22:27

三部门:增强IPv6网络性能和服务质量,推动算力基础设施同步部署IPv6

22:24

中核钛白案处罚落地:对中核钛白实控人、中信与海通等预计罚没合计2.35亿元

22:22

万丰奥威:公司与特斯拉共同组建eVTOL公司并已组建项目团队的传闻不实

22:20

三部门:到2024年末IPv6活跃用户数达到8亿,物联网IPv6连接数达到6.5亿

22:19

上海明确住宿登记流程,严禁住酒店“强制刷脸”

22:14

韵达股份:3月快递服务业务收入同比增长8.84%

22:12

上海浦东发展银行昆明分行高级专家潘岭接受审查调查

22:07

国轩高科:2023年净利润同比增长201.28%,拟10派1元

22:03

海康威视:2024年一季度净利润19.16亿元,同比增长5.78%

22:03

深交所:终止对优巨新材首次公开发行股票并在创业板上市审核

21:50

香港监管机构将调查普华永道在审计恒大账目中的作用

21:48

人工智能概念股美股盘初多数下跌,Meta、英伟达、英特尔至少跌约1%

21:39

IMF:预计OPEC+将从7月开始逐步提高石油产量

21:35

商务部部长王文涛会见英飞凌科技公司首席执行官哈内贝克

8

扫描下载App