由于搜索引擎蜘蛛抓取的是页面的HTML代码,里面包含了大量的HTML标签、js等无法用到排名上的内容,所以搜索引擎索引首先要做的就是把其中的HTML标签、js去掉,保留剩下的页面文字内容。中文分词是中文搜索引擎特有的步骤,英文单词之间会有空格作分隔,而中文词与词之间没有分隔符号,一个句子字与词都是连在一起的。中文搜索引擎必须首先分辨那几个字组成一个词,哪些字本身就是一个词。比如“健身方法”将被分词为“健身”和“方法”两个词。在页面内容中会存在很多对内容没有任何影响的词,比如"的"、"之"、"却"、"啊"之类。搜索引擎在索引时会把这些词去掉,让页面内容的主题更加突出。搜索引擎为了减少搜索结果中出现的重复内容会选取页面内容中出现频率最高的词,通常会选出10个左右关于页面的关键词来计算页面的“指纹”。经过以上步骤之后,搜索引擎就可以提炼出可以代表一个页面内容的一些关键词,同时记录这些词在页面上的出现频率、出现次数、格式、位置等信息。当页面中存在链接时,搜索引擎会计算这些链接都只想哪些页面,每个页面都有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。这些链接关系也是百度计算权重的重要依据之一,至于百度权重和链接分析会在以后的文章中专门介绍。
行业上市公司网总管声明:如发现内容存在版权问题,烦请提供相关信息发邮件至我们将及时沟通与处理。本站内容系统采集于网络,涉及言论、版权与本站无关。
网总管,非竞价网络推广上市公司,网络推广领跑者。打造出排名侠、品牌全网推广、网站托管三大服务,致力于帮助中国2000多万家中小企业不再为推广而烦恼。
Tags:seo以上就是SEO基础知识!你知道搜索引擎是如何工作的么的全部内容了,希望大家喜欢。