喜马拉雅 PC端文章详情页顶部23-26

从web到social graph,搜索引擎正在发生什么革命?

FB等互联网巨头开始积极推出基于社交数据的搜索引擎,搜索引擎正发生一场静悄悄的变革,传统网页的信息源危机,social的朋友价值,web和people的互动价值都在凸显

Facebook、Twitter和国内的云云都先后推出了基于社交数据的搜索引擎,搜索引擎正发生一场静悄悄的变革,传统网页的信息源危机,social的朋友价值,web和people的互动价值都在凸显

搜索引擎正在发生一场静悄悄的变革,在平静的搜索结果页背后,巨大的浪潮在汹涌澎湃。上一次革命是Pagerank的诞生,它使得Google替代Yahoo成为搜索巨头,这次轮到了Facebook和Twitter。

在2012年底前后,Facebook、Twitter和国内的云云都先后推出了基于社交数据的搜索引擎(云云搜索基于新浪、腾讯等四大微博的数据源)。尽管有些巧合,但其背后隐藏的逻辑不可低估——以Pagerank(web graph)为基石的传统搜索引擎,遇到了整合了social graph社交搜索的强大挑战。

为什么说这是个强大的挑战,social graph(社交图谱或社会化搜索)将以什么方式颠覆传统搜索呢?

 

传统网页的信息源危机

任何搜索的基础,都是丰富的、海量的信息。当世界上的web网页足够多的时候,Google的存在才有意义。1998年的时候,网上的网站只有那么几个,掰着手指就可以数出来,这种信息匮乏的情况下,当然用不着多强大的搜索。

随着网页信息的增加,在网上寻找信息的网民分化成了两个部分:一部分网民的需求,hao123就可以满足;而更大量、更多网民的信息检索需求,列表式的网址导航无法满足,从而诞生了Google和百度。

可以说,有价值的信息在哪里,搜索的价值就在哪里。当移动互联网上产生的信息足够多、足够有价值的时候,移动搜索就顺理成章地出现;当大量有价值的信息出现在微博、Twitter上时,微博搜索出现了,社会化搜索的曙光也出现了。

我们可以做个对比:中国互联网上有网站268万个(根据第31次CNNIC报告),主流搜索引擎索引的中文网页数量为1000亿;现在有三四千万微博用户活跃,每天生产出2、3亿条微博信息。微博上一年产生的数据量,几乎等于中文互联网有史以来产生的所有数据。

如此海量的信息,产生的价值无可估量。

由于微博是每个人都可以自由产生信息,比传统网站经过编辑的信息产生效率高出一两个数量级;微博实名认证,每天有几十万个实名认证的企业、行业精英来产生内容,在很多方面比传统的互联网新闻要可靠、值得信任。比如,同样一条医疗信息,你是相信百度搜索出来的网页,还是相信协和医院医生的微博?

 

Social Graph凸显朋友的价值

社交数据越来越体现出来在搜索上的价值,无论是Google这样的传统搜索引擎,还是Facebook、Twitter这样的社交信息拥有者,都异曲同工的瞄准了社交搜索这个全新的领域。在国内,以云云为代表的社交搜索也顺势而起,借助社交因素来优化搜索,为用户提供更准确的搜索结果。

从技术角度来讲,Facebook、Twitter跟云云的努力方向并不一致。

例如,搜索“北京最好吃的爆肚”,Facebook是先挑选你在Facebook上的朋友,再在他们发表的信息里搜索“爆肚”;而云云则是在需要你先登录,绑定微博后获知你的微博关系,再把你的微博好友“动”过的包含“爆肚”的网页挑出来(这个“动”,意味着好友对网页进行了赞、转发等动作)。

理想状态下,两者都可以检索到想要的结果,只不过体现在搜索结果页上,一个是Facebook的一条内容,一个是普通的中文网页。(Facebook的搜索原理,仅是依据媒体报道推测,未看到产品呈现)

传统搜索是分析网页之间的关系,Facebook搜索是分析人与人之间的关系,是一种进步和趋势。加入“人”之后的搜索会更加精准、更个性化,也更有效。

 

WebPeople的互动,将提升搜索的价值

Facebook的搜索理论上很有用,因为人跟人之间的关系(link)有价值。在搜索结果中,存在着大量并非绝对标准、仅对少部分人有意义的搜索结果:比如“小明爱吃的面包”,只对小明这个人周围的圈子——小明的爸爸、小明的妈妈、小明的朋友有意义,别人对他爱吃什么面包没兴趣。

小明的妈妈搜“好吃的面包”,实际上可能是为了找“小明爱吃什么面包”,现在的搜索引擎99%是找不到好结果的。整合了社交数据之后,搜索结果的有效性就会大幅提升。因为小明的妈妈在新浪微博上关注了小明,当她搜“好吃的面包”时,小明转发过的面包网页就会排在搜索结果前列,这样就有了一个很棒的搜索结果。

另外,单纯的搜索社交数据也是不够的。就像Facebook一样,只能搜索社交网络上的信息显得有些单薄,因为现在传统的互联网上也沉淀了大量有价值的内容,无论是Wiki(中文互联网上的百科)、问答,还是传统的论坛和社区,都有不少有用的数据。必须是网页和人的关系整合在一起,才是社会化搜索的发展方向。

 

关键词搜索和语义搜索的不同

在现有的搜索里,“小明爱吃的面包”和“小明 面包”是两种搜索方式。前面的语义搜索对用户更加友好,但使得搜索引擎对自然语言的处理要求更高;后一种关键词搜索是现在常用的方式,比如Google和百度搜索,大家还是更习惯于挑几个词来查询。这种查询处理起来简单,但搜索结果可能需要用户进一步的筛选,给普通用户的搜索带来困扰。

从目前报道的信息来看,Facebook的Social graph和苹果的Siri类似,都是用自然语言的语义搜索。如果这种搜索习惯在普通用户中逐渐培养起来的话,可能给Google和百度这样的传统引擎带来麻烦,比如在Google上搜“我今天下午到哪儿去喝茶会遇到漂亮姑娘”,你猜Google会给一个什么结果?

本文系作者 simaziyu 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持

喜马拉雅文章页评论上方

发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

22:18

谷歌大涨超11%,再创历史新高,总市值突破2万亿美元

22:11

研究显示到2025年底全球利率升幅只会砍一半,重塑投资格局

22:09

台达电加码印度投资,预计增资6200万美元

22:08

标普500指数涨1%至盘中高点

22:07

上海航交所:本周中国出口集装箱运输市场行情表现良好,远洋航线运价上涨

22:06

中基协:3月证券期货经营机构私募资管产品备案规模环比增长127.51%

22:05

美国4月密歇根大学消费者信心指数终值为77.2,前值77.9

22:04

美国消费者4月份对未来一年通胀率预期由2.9%升至3.2%

22:00

东风着陆场完成最后一次全系统综合演练,准备就绪迎接神十七航天员回家

21:54

中概股指数涨幅扩大至3.5%,小鹏汽车涨近10%

21:53

Snap大涨25%,Q1业绩超预期且Q2指引胜预期

21:43

英特尔大跌近13%,跌幅为2020年以来单日最大

21:39

IMF预计法国将在5年内跌出世界经济十强,对全球增长贡献或不足2%

21:34

岚图汽车发布出海战略,目标到2030年海外销量累计超50万辆

21:33

美股开盘:三大指数集体高开,英特尔跌10%,热门中概股普遍上涨

21:31

仁芯科技发布首颗16G高性能车载SerDes芯片

21:29

长城皮卡宣布全球累计销量突破256万辆

21:27

埃安旗下高端品牌昊铂推出2024款HT,率先搭载城市NDA功能

21:24

华润集团一季度营业收入1912亿元,同比增长2.6%

21:22

易航智能发布“笃行”城市智驾平台,标准版方案不高于5000元

扫描下载App