搜索引擎工作原理之预处理

2019-02-22 12:16:30

第六,在第十四课介绍SEO基础的基础上,和同学们介绍了搜索引擎工作原理的第一步爬行和抓取。现在让我们了解搜索引擎工作原理的第二步-预处理。众所周知,互联网页面非常大,当用户搜索关键字时,蜘蛛需要实时反馈他们需要的信息。此时,他们需要预先处理所抓取的页面,然后才能为用户的实时查询排名做好准备。

在一些SEO教程中,预处理也称为索引。但这不太准确。严格来说,索引是搜索引擎预处理中最重要的内容。和蜘蛛爬行一样,预处理也是由引擎在后台预先完成的。现在让我们了解一下预处理的工作原理。

seo第一讲.png

六个SEO基础介绍第15讲:搜索引擎工作原理的预处理

1。步骤1:提取代码文本信息

当蜘蛛返回到已爬网的页面时,它将删除页面中的代码标记,留下可用于排名的文本。如下,

第二步:中文分词

为了更好地识别用户的搜索需求,搜索引擎将智能地识别用户的输入段落。分词主要基于词典匹配和用户统计。例如,“风马牛不相关”一词就是词典中的一个完整词汇。因此,当我们输入这个词时,搜索引擎将确定这个词作为一个词处理。这是基于词典的分词。而“66搜索引擎优化”这个词则是由用户的日常搜索决定的。这也是为了更好地满足用户的搜索需求。在企业品牌推广之初,既不是词典匹配,也不是用户统计。在这个时候,作为一个搜索引擎工作者,有必要提示搜索引擎把这些词当作一个词来对待。在页面中,品牌词可以通过涂黑、配色等方式提示到搜索引擎。

第三步:停止语

停止词是指在页面内容中频繁出现且对内容没有影响的词,如中文、英文等中的“de”、“di”、“an”、“the”。搜索引擎的预处理将优先删除这些词,降低计算能力,并更有效地排名显示。

第4步:噪声消除

这是可以理解的。例如,现在许多插入页面内容的广告与页面无关。它们被称为页面噪声。这些不相关的噪声在预处理过程中被识别和消除。提取页面的主要内容以备后续排名准备。

第5步:去后处理

搜索引擎不希望用户在搜索关键字时显示不同网站的相同内容。他们希望向用户提供更多的知识。重复数据消除的基本原理是,在完成前四个步骤后,识别页面的主要关键字(通常是我们的SEO优化关键字)以完成重复数据消除步骤。一般来说,发布时间和网站权重是主要因素。建议在优化SEO时,不要过多地复制原始文章,因为很难更改文章的主要关键字。

步骤6:向前索引和反向索引

前向索引指的是页面内容经过前五步的净化后已经变成一串关键字。此时,搜索引擎会比较每个页面的关键字,主要是关键字的频率、频率、格式、位置等信息。将其存储在数据库中。

由于单向前指数不能直接用于排序,因此建立了反向指数。此时,搜索引擎将在转发索引之后聚合包含相同关键字的文件。直接调用方面引擎排序大大提高了排序效率。

步骤7:链接关系

链接关系是指搜索引擎对页面进行预处理后返回链接并跳出链接和链接文本进行计算,即我们做外部链接、友情链接和锚文本的含义。大多数搜索引擎工作者称这种链接关系为页面投票机制。听到这个,我相信你对我们为什么要做外链和友情链接以及锚文本有一定的了解。

第8步:质量判断

页面质量判断是搜索引擎在预处理阶段根据预先设定的算法进行分析,最终为用户查询排名做准备。

第六和第六方案的关键是预处理阶段比爬行阶段复杂。我们必须彻底理解和理解这些理论知识。这对今后的SEO优化工作具有重要意义。如果您对搜索引擎预处理有任何疑问,请在下面留言。


1890+ 家企业都在用陆壹网络关键词快速排名系统,你还在等什么?

点击立即注册