搜索引擎索引系统概述
精选
· 2013.12.09
众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?

众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?
如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:
(1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;
(2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
(3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?
上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。
本文作者:百度站长平台lee,精选自百度站长社区,由钛媒体编辑整理
技术控是百度新闻与钛媒体合作,专门为技术爱好者打造的栏目
398篇资讯
658关注
本文系作者
精选授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和
本文链接。
想和千万钛媒体用户分享你的新奇观点和发现,
点击这里投稿 。创业或融资寻求报道,
点击这里。
敬原创,有钛度,得赞赏

411人赞赏钛媒体文章
-
约2天以前
-
约4天以前
-
上周
-
2021-01-18 16:09
-
2021-01-13 16:45
-
2021-01-11 23:04
-
2021-01-11 14:39
-
2021-01-05 15:37
-
2021-01-04 14:16
-
2021-01-03 16:31
-
2020-12-31 10:30
-
2020-12-31 10:23
-
2020-12-31 10:17
-
2020-12-31 10:10
-
2020-12-25 14:33
-
2020-12-18 16:41
-
2020-12-18 16:32
-
2020-12-15 13:47
-
2020-12-07 08:11
-
2020-11-25 15:39
-
2020-11-24 12:04
-
2020-11-19 17:52
-
2020-11-09 12:59
-
2020-11-06 13:48
-
2020-11-05 18:13
-
2020-11-04 21:12
-
2020-11-04 16:51
-
2020-10-23 20:30
-
2020-10-16 08:59
-
2020-10-10 01:25
-
2020-10-06 13:44
-
2020-09-25 13:07
-
2020-09-23 11:43
-
2020-09-18 16:36
-
2020-09-12 13:24
-
2020-09-08 17:57
-
2020-09-08 12:30
-
2020-09-06 23:36
-
2020-09-05 09:42
-
2020-09-01 16:39
-
2020-08-21 09:43
-
2020-08-20 13:30
-
2020-08-14 09:47
-
2020-08-12 13:31
-
2020-08-11 12:02
-
2020-08-04 15:21
-
2020-07-27 10:37
-
2020-07-24 15:57
-
2020-07-21 12:35
-
2020-07-13 19:44
-
挺钛度,加点码!
确认支付
支付
支付金额:¥6
赞赏金额:¥ 6
赞赏时间:2020.02.11 17:32
账户【未登录】提示!
个人中心将无法记录并同步您的赞赏记录,
是否进行登录
分享文章
分享文章
Oh! no
您是否确认要删除该条评论吗?