你知道像百度这样的搜索引擎如何发现,抓取和排列数以万亿计的网页,以便提供搜索结果吗?

尽管搜索引擎的整体工作原理较为复杂,但我嘛可以理解一些非技术性的东西,如抓取,索引和排名,以便我嘛更好地理解搜索引擎优化策略背后的方法。

据统计网络上页面结果超过130万亿个。实际上,可能远远超过这个数字,有很多页面因为各种原因被百度排除在抓取,索引和排名过程之外。

为了保持搜索结果尽可能的与用户搜索相关,像百度这样的搜索引擎有一个明确定义的流程,即用于为任何给定的搜索查询确定最佳网页,这个过程随着时间的推移而变化,因为它可以使搜索结果更好。

基本上,我们试图回答这个问题:“百度如何确定以及排序搜索结果?”。简而言之,这个过程包含以下步骤:

1.抓取 – 发现网络上页面并抓取;

2.索引 – 存储所有检索到的页面的信息供日后检索;

3.排名 – 确定每个页面的内容,以及应该如何对相关查询进行排名;

让我们仔细看看更简单的解释…

抓取

搜索引擎具有专门的抓取工具(又名蜘蛛),可以“爬行”万维网来发现存在的页面,以帮助确定最佳网页,以便对查询进行评估,爬虫旅行的方式是网站链接。网站链接将整个网站上的页面链接在一起,这样做为抓取工具创建了一条通往存在的万亿互联网页的途径。

百度蜘蛛

每当爬虫查看网页时,他们都会查看页面的“文档对象模型”(或“DOM”),以查看其中的内容。DOM页面呈现HTML和Javascript代码,爬虫可以通过它查找其他页面的链接,这允许搜索引擎发现网页上的新页面,并且找到每个新链接都会加载到该爬虫将在稍后访问的队列中。

如前所述,像百度这样的搜索引擎不会抓取每一个网页,相反,他们从一组可信的网站开始,这些网站是确定其他网站如何衡量的基础,并且通过跟踪他们在他们访问的网页上看到的链接,扩展了他们在网络上的抓取。

相关阅读:百度蜘蛛优化教程

索引

索引是将关于网页的信息添加到搜索引擎索引中的行为,索引是一组网页 – 一个数据库 – 包含搜索引擎蜘蛛爬取页面的信息。

索引目录和组织:

·每个网页内容的性质和主题相关性的详细数据;

·每个页面链接到的所有页面的地图;

·任何链接的可点击(锚点)文字;

·有关链接的其他信息,例如它们是否是广告,它们位于页面上的位置以及链接上下文的其他方面,以及关于接收链接的页面的含义… 和更多。

索引是当用户在搜索引擎中输入查询时,百度等搜索引擎存储和检索数据的数据库决定从索引中显示哪些网页并按照什么顺序显示之前,搜索引擎会应用算法来帮助排列这些网页。

排名

为了向搜索引擎的用户提供搜索结果,搜索引擎必须执行一些关键步骤:

1.解释用户查询的意图;

2.识别与查询相关的索引中的网页;

3.按相关性和重要性排序并返回这些网页;

这是搜索引擎优化的主要领域之一,有效的SEO有助于影响这些网页对相关查询的相关性和重要性。

那么,相关性和重要性意味着什么?

·相关性:网页上的内容与搜索者的意图相匹配的程度(意图是搜索者试图完成搜索的目的,这对于搜索引擎(或SEO)来说是一个不小的任务)。

·重要性:他们在别处引用的越多,网页被认为越重要(将这些引用视为该网页的信任投票)。传统上,这是从其他网站链接到该网页的形式,但也可能有其他因素发挥作用。

为了完成分配相关性和重要性的任务,搜索引擎具有复杂的算法,旨在考虑数百个信号  ,以帮助确定任何给定网页的相关性和重要性。

这些算法通常会随着搜索引擎的工作而改变,以改善他们向用户提供最佳结果的方法。

虽然我们可能永远不会知道百度等搜索引擎在其算法中使用的完整信号列表(这是一个严密保密的秘密,并且有充分的理由,以免某些不道德者使用其来对系统进行排名),但搜索引擎已经揭示了一些通过与网络出版社区共享知识的基础知识,我们可以使用这些知识来创建持久的SEO策略。

搜索引擎如何评估内容?

作为排名过程的一部分,搜索引擎需要理解它所搜索的每个网页内容的性质,事实上,百度对网页内容作为排名信号很重视。

在2016年,百度证实了我们许多人已经相信的内容:内容是网页排名前三位的因素之一。

为了理解网页的内容,搜索引擎分析出现在网页上的词语和短语,然后建立一个称为“语义地图”的数据地图,这有助于定义网络上的概念之间的关系页。

您可能想知道网页上的“内容”实际上是什么,独特的页面内容由页面标题和正文内容组成。在这里,导航链接通常不在这个等式中,这并不是说它们并不重要,但在这种情况下,它们不被视为页面上的独特内容。

搜索引擎可以在网页上“查看”什么样的内容?

为了评估内容,搜索引擎在网页上找到的数据以解释理解它,由于搜索引擎是软件程序,他们“看到”网页的方式与我们看到的截然不同。

搜索引擎爬虫以DOM的形式查看网页(如我们上面定义的那样)。作为一个人,如果你想看看搜索引擎看到什么,你可以做的一件事就是看看页面的源代码,要做到这一点,您可以通过右键单击浏览器中并查看源代码。

源代码

源代码

这和DOM之间的区别在于我们没有看到Javascript执行的效果,但作为一个人,我们仍然可以使用它来了解很多关于页面内容的内容,网页上的正文内容通常可以在源代码中找到,以下是HTML代码中以上网页上的一些独特内容的示例:

除了网页上的独特内容之外,搜索引擎抓取工具还会在网页上添加其他元素,帮助搜索引擎了解该网页的内容。

这包括如下内容:

·网页的元数据,包括HTML代码中的标题标签和元描述标签,这些标签用作搜索结果中网页的标题和说明,并应由网站所有者维护。

·网页上图像的alt属性,这些是网站所有者应该保留的描述,以描述图像的内容。由于搜索引擎无法“看见”图像,这有助于他们更好地理解网页上的内容,并且对于那些使用屏幕阅读程序来描述网页内容的残障人士也起着重要作用。

我们已经提到了图片,以及alt属性如何帮助爬虫了解这些图片的内容,搜索引擎无法看到的其他元素包括:

Flash文件:百度曾表示可以从Adobe Flash文件中提取一些信息,但这很难,因为Flash是一种图片媒介,当设计人员使用Flash来设计网站时,他们通常不会插入有助于解释文件内容的文本,许多设计人员已将HTML5作为Adobe Flash的替代品,这对搜索引擎友好。

音频和视频:就像图像一样,搜索引擎很难理解没有上下文的音频或视频。例如,搜索引擎可以在Mp3文件中的ID3标签中提取有限的数据,这是许多出版商将音频和视频与成绩单一起放在网页上以帮助搜索引擎提供更多背景的原因之一。

程序中包含的内容:这包括AJAX和其他形式的JavaScript方法,动态加载网页上的内容。

iframe:iframe标记通常用于将自己网站上的其他内容嵌入到当前网页中,或者将来自其他网站的内容嵌入到您的网页中百度可能不会将此内容视为您的网页的一部分,尤其是当它来自第三方网站时。从历史上看,百度忽略了iframe中的内容,但可能有些情况是该通用规则的例外情况。

结论

在SEO面前,搜索引擎显得如此简单:在搜索框中输入查询,然后poof!显示你的结果。但是,这种即时展现是由幕后的一组复杂过程支持的,这有助于为用户搜索识别最相关的数据,因此搜索引擎可以寻找食谱,研究产品或其他奇奇怪怪不可描述的事情。

相关阅读:爬行、抓取、索引、收录,指的都是什么?搜索引擎的工作原理