【爱否SEO】SEO视频教程-SEO优化教程-SEO教程自学网:306090669(QQ)
4008883171

【爱否SEO】 > SEO百科 >

搜索引擎的计算统计信息

编辑:【爱否SEO】发布时间: 2018-09-18
乐易搜在计算统计信息在上一节中提到,这里给出两种计算方法,两种方法各有优劣。 第1种方法从排序后的正排表开始统计; 第2种方法从临时倒排文件统计。分别来看这两种方法的区别。首先通过图5-24来理解第1种方法。内存中经过排序的正排结果在转换为倒排表之前,发给统计员一份拷贝。 统计员为...
乐易搜在计算统计信息在上一节中提到,这里给出两种计算方法,两种方法各有优劣。
第1种方法从排序后的正排表开始统计;
 
第2种方法从临时倒排文件统计。分别来看这两种方法的区别。首先通过图5-24来理解第1种方法。内存中经过排序的正排结果在转换为倒排表之前,发给统计员一份拷贝。
 
统计员为每个索引结点建立一个哈希表,这个哈希表用来进行计数。在全部网页库中的文档被处理完后,统计员将各个哈希表中的词进行综合统计,把相应的结果发给各个索引结点。注意这里发给索引结点A统计结果和发给索引结点B的统计结果是不同的,因为索引结点B不包含“rat”这个索引词,因此没有必要把“rat”的信息发给它。这种方法由于需要哈希表的代价,因此需要耗费一定的内存空间,这是其主要缺点。
 
第2种统计以夷伐夷要采用基于已计算好的倒排表数据来进行综合统计,整个过程相对简单。相当于对各个索引结点自身的统计结果进行综合统计,然后回传给各个索引结点。这种方法的主要缺点地需要等待最慢的索引结点做完索引后才能开始进行计算。在完成了创建最终倒排文件和词典后,全部倒排索引文件创建工作完毕。从某种角度上看,这些都是一种预先计算(precomputation)。这种预先计算都是在为查询时节省时间,海量数据完成一次最终倒排索引文件的制作是非常耗时的,这些尽可能预先完成的计算为查询争取了宝贵的时间。
站内导航
 
QQ在线咨询
售前咨询热线
4008883171
售后咨询热线
13622373171