2024CTIS-文章详情页顶部

80后的互联成长录(九):伟大的搜索引擎

如果你只是在一个内容相对集中的站点中浏览,那么超链接可以给你很好的指引。但如果你想在茫茫的互联网上找到相关的内容,单纯的超链接似乎就力不从心了。搜索引擎的出现,就帮人们解决了互联网上的定位问题。

钛媒体注:80后这一代人可以说是伴随着中国互联网的成长而长大的。他们经历过互联网行业怎样的发展?他们怎么看、怎么想?钛媒体作者白鼠窝推出“80后的互联成长”系列文章,在钛媒体独家连载(链接地址:https://www.tmtpost.com/author/baishuwo),本文是第九篇:

 

上一篇讲到了医院热衷SEO这个事,而这都和搜索引擎的存在有关,这篇来讲讲和搜索引擎相关的一些东西。

当我开始可以上网时,怎么找到你需要的信息就成了一个很大的问题。你知道网上有很多的东西,但你却不知道它在哪里。这时候伟大的搜索引擎就可以救你于水深火热之中。

如同之前所说的,刚开始上网时,主要是通过门户网站上的超链接(就是点击了会跳到另外一个网页的文字或图片)来浏览网络。超链接的确是互联网中简单却又异常有用的发明。通过超链接,成千上万的网页得以互联连接。通过不同的组织方式,人们可以更好的浏览内容,发现相关内容,链接广告还可以用来变现等等。

但超链接也有很大的局限性,如果你只是在一个内容相对集中的站点中浏览,那么超链接可以给你很好的指引。但如果你想在茫茫的互联网上找到相关的内容,单纯的超链接似乎就力不从心了。当你从一个页面进行了10几次跳转还没找到相关内容的时候,估计你就完全没有耐心继续寻找了。

搜索引擎的出现,就帮人们解决了互联网上的定位问题。通过搜索引擎,只需要相应的关键字,你就可以很容易的早点相关的内容,而不需要通过似乎无止境的超链接导航一层一层的走。

当然,搜索引擎并不是孤立存在的,能使搜索引擎存在的基础便是超链接的存在。搜索引擎能完成搜索最重要的两个核心要素——信息抓取和信息排序,都离不开超链接。

搜索引擎依靠一种叫做“爬虫”(spider)的程序在互联网获取信息。之所以称之为“爬虫”就是因为这个程序会顺着它获得到的超链接一直“爬”,正是由于互联网超链接的互通性,从一些大的站点或者一些重要的导航站(目录站)出发,爬虫就有可能通过这些千千万万的链接走遍整个互联网。

搜索引擎的爬虫在”爬“到相应的网站时,就会将该网站存到自己的数据库中,以便搜索排序之用。就是说,想要实现真正的搜索,搜索引擎厂商需要将几乎整个互联网都装进自己的服务器中。

为了存储这些数据,搜索引擎公司需要有大量的服务器。谷歌中国前技术总监周杰在2008年的一次会议上曾经透露过Googl拥有的服务器数量级,他说“Google的服务数量大约相当于美国第三大PC生产商。”虽然不知道具体数据,我们还可以从另外一个侧面来看谷歌的数据中心规模,据谷歌公布的数据显示,谷歌全球能源消费达到2.6亿瓦特,这相当于弗吉尼亚州首府里士满或者加州欧文市家庭用户的所有用电量,或者说,这相当于一座标准核电站1/4的输出功率。大多数数据报告都认为谷歌是世界上拥有最多服务器的企业。

当然,仅仅是储存这些数据是远远不够的,搜索的目的就是要找出最符合用户需求的网页。这时候搜索引擎就需要对不同的网页进行排序,而这个排序的基础也是通过超链接计算出来的。

简单来说,搜索引擎的排序基础算法是这样的:大多数网页都有超链接链向它,或者它会链向别人,而这种链接可以被认为是每个网页对其他网页质量好坏的投票。搜索引擎认为,如果有大量的链接链向某个页面,那这个页面就是受欢迎的,就应该在搜时被排在前面。反之没有人链接的网站就是不受欢迎的。当然,搜索引擎还会考虑关键字匹配程度、链接网页本身的质量等多种因素,但大体上其工作原理就是上面所说的那样。

正是由于搜索引擎的工作原理是通过超链接实现的,就可以理解大多数网站为什么那么喜欢交换友情链接了。因为增互相间的链接是可以提高网站在搜索引擎的排名的。当然如果你没有那么多“友人”的话,你还可在网上找到很多卖“友链”的人的,他们会很“友好”的告诉你每条链接的价钱。

直接卖链接,是比较初级的做法。因为即使有链接,但效果怎么样实在难以衡量。在搜索引擎称霸互联网以后,就出现了一种特殊的工种——SEO(搜索引擎优化)。SEO的职责就是让网站的排名在搜索引擎里尽量靠前,这样你的网站就有可能被跟多的人访问到。正如上一篇所说的,很多网站会有专门的SEO人员来优化自己网站的排名。

围绕搜索引擎,有很多相关的上下游产业。这边就不一一展开去了。当你知道搜索引擎的大概工作原理,你就能大概理解这些行当都是做什么的。

回到搜索引擎本身,如上面提到的,要从成千上亿条数据中快速找出需要的页面并完成排序,这在技术上也并不是一件容易的事情,调度上万台机器的资源可不容易,包括微软、雅虎在内的企业都曾经在搜索引擎上摔过跟头。

搜索引擎在基础设施投资和技术门槛上都可以说是一件门槛非常高的事,但于此同时搜索引擎又有着一种令人着迷的盈利模式,这让很多企业都对引擎业务趋之若鹜。(本文独家首发钛媒体)

【钛媒体作者介绍:叶元,微信公众号“白鼠窝”(baishuwo)】

本文系作者 白鼠窝 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 学习

    回复 2015.03.11 · via pc
  • 看看

    回复 2015.02.27 · via pc
  • 错过了多少

    回复 2015.02.26 · via pc
  • 不错 文章 weixiu.itxinyou.com

    回复 2015.02.24 · via pc
  • 选择也多

    回复 2015.02.24 · via pc
  • 实用的搜索!

    回复 2015.02.23 · via pc
  • 互联网信息量越来越大,搜索引擎面临的挑战也越来越大。

    回复 2015.02.23 · via pc
  • 百度似乎早已预料到这个问题

    回复 2015.02.23 · via pc
  • 可能过几年就有替代搜索引擎的新方式,到时又要有新的巨头出现了!

    回复 2015.02.23 · via pc
  • ,,,

    回复 2015.02.23 · via pc
更多评论

快报

更多

20:38

内蒙古地区一季度生产总值5604亿元,同比增长5.9%

20:33

雷军称小米SU7不适合周鸿祎,等小米做SUV版时再推荐

20:21

高通与Meta达成合作,支持大模型Llama 3在骁龙终端上运行

20:18

知名基金经理一季度重仓股变化情况不大,林英睿:更深入地思考上行的潜在方向

20:14

4月20日新闻联播速览26条

19:46

中期协:要稳慎有序发展期货和衍生品市场,围绕强监管、防风险、促发展做好五项工作

19:42

重庆启动涉企行政复议“三跨三办”改革试点工作

19:24

北京将重点培育街区等7类消费场景

18:56

欧莱雅中国:继续投资国潮和科技产品,线上销售占比已达六成

18:50

核污染水储水罐内表面被腐蚀,东电负责人:是自然会发生的情况

18:48

西安中车长客:地铁10号线试车时因处置不当致车辆追尾,车辆局部受损

18:47

宝武资源西非有限公司在几内亚揭牌成立

18:40

龚正会见美国旧金山市市长伦敦·布里德

18:33

理想汽车:没有规划配置比Pro版本更低的理想L6车型

18:32

北汽:首批实现AI大模型上车,极狐考拉等具备自我认知和主动学习能力

18:21

证监会刘健钧:推进注册制走深走实,发挥各市场主体的甄别、约束和监督作用

18:18

消息称日本政府将与英伟达共同打造量子计算系统

18:13

周鸿祎:说开源好不是针对李彦宏,开源和闭源没必要相互贬低

18:08

莫干山研究院朱嘉明:预计未来5-10年人工智能对全球GDP贡献趋于10%

18:07

小鹏汽车推出限时5亿元购车补贴

12

扫描下载App