搜索引擎是什么?

Web搜索引擎基本上是一个软件系统,用于搜索和分类信息,并根据用户的请求通过搜索引擎结果页面(SERP)显示它。

虽然大多数人在谈论这个主题时只会想到Google或百度这样的网站,但必须要了解像亚马逊或淘宝这样的网站也是有效的搜索引擎,而不是在整个互联网上搜索和分类页面和信息,他们专注于生态系统中列出的页面。

无论他们如何做到这一点的具体细节,这基本上都是所有搜索引擎所做的。

有些搜索引擎在某些方面比其他搜索引擎更好,有些搜索引擎在系统的复杂程度和精确程度方面处于领先地位,从而提供比其他搜索引擎更准确,一致和可靠的结果。

当我们比较一些最好的那些,并回顾它们的优点和缺点时,我们将涵盖所有这些,但在我们做之前,了解现代搜索引擎来自何处的基础知识可以让您更好地了解它们的工作原理现在,这是一个不容忽视的优势。

搜索引擎的起源

今天,搜索引擎是高度复杂的软件,以惊人的规模运行,筛选数十亿个包含互联网的网站,为用户提供准确的查询结果。为了有效地实现这一目标,大量索引和更复杂的算法不断得到改进,采用最先进的技术,如机器学习和人工智能。

然而,在早期,过去的工作方式完全不同。

早期的搜索引擎 – Altavista,Lycos,Dmoz–更像是目录或策划的网站列表。如果您是网站管理员,则需要将您的网站提交到这些目录,并且处理这些目录的人将确定您的网站属于哪个类别或列表,这与搜索引擎最终演变为显着不同。

现在,这已经持续了一段时间,直到两个人,谢尔盖布林和拉里佩奇提出了“ 页面排名 ”,这从根本上塑造了现代搜索引擎的变化。

他们为他们的博士研究论文,布林和佩奇开始更加关注每篇参考书目的参考书目,以及几篇论文如何回顾该领域的一些重要工作,从而提高其相关性。

它的工作原理如下:论文A详细讲述了一个新概念。论文B和C采取了这一概念,对自己进行了一些研究,并在论文中对A进行了研究。论文D扩展了论文C的研究结果,并在其参考书目中提到了论文C和论文A作为其内容的参考资料。

论文A收到的参考文献越多(因为它被用作对特定领域进行更多研究和扩展的基础),它就越具有相关性,而且它变得越来越重要。

毕竟,这意味着它不仅被更多的人审阅,研究和阅读 – 从而增加了对其内容的审查 – 但通过经常被引用,它表明其内容不仅合理而且对任何其他人都非常重要,进入那个特定的研究领域。

Google所做的是采用这一概念并将其应用于网站,根据其在其他网站上的“引用次数”对其相关性或重要性进行排序。这最终成为“ 网页排名 ”,这是一种排名方式,形成了搜索引擎从那时起采用的方式。

您可能知道这一点,但它也是构建Google的基础。

截至目前,网页排名仍然是谷歌搜索或其他搜索引擎算法的重要组成部分,几乎所有搜索引擎都以某种形式呈现。然而,这些系统已经取得了很大的进步,因此认为这就是他们的全部内容将是一种伤害。

搜索引擎如何工作

首先,当您在Google或百度这样的网站上进行搜索时,不像软件实时运行您的查询,在此刻搜索与您的关键字匹配的网页。有数十亿页面,每分钟都有数百个新页面出现,这种方法是不可行的。

现代搜索引擎所做的是不断搜索网络记录并组织他们找到的信息,这个功能我们称之为“ 索引 ”。这样,当您在百度上输入查询时,软件只需将您的关键字解释为最好的能力,将它们与数据库中的结果相匹配,并按照它认为最相关的顺序显示给您。

在我看来,最好的可视化方法是“ 网络 ” 的传统例子

想象一下,互联网是一个巨大的蜘蛛网,连接着每一页。这些连接的发生得益于超链接,超链接是您点击它们时引导您访问互联网上其他网站的突出显示文本或图像的精美名称。

搜索引擎不断运行我们称之为“蜘蛛”的程序,其唯一的功能是访问他们找到的每个网站 – 使用这些超链接 – 收集有关其内容的信息并将该信息添加到其搜索索引中。因此,当人们搜索可能驻留在该页面上的信息时,可以随时使用它。

现在,当您在搜索引擎上输入查询时,软件需要根据您提供的单词尝试解释您想要知道的内容。否则,您将收到数以百万计的结果,这些结果与您所追求的结果不一定相同,即使它包含您搜索的单词。

这可能非常复杂,因为相同的单词 – SEO – 可以根据您在搜索中使用的其余单词形成的上下文来引用完全不同的内容。

一旦搜索引擎决定它认为你在问什么,那么它就会确定哪些结果最有可能找到你想要的东西。他们如何做到这一点是无数的,因为在一个搜索条目中可能会考虑数百甚至数千个变量。

这些部分是我们通常称为“ 搜索算法 ”的变量和复杂决策结构的结合,最终确定了搜索引擎认为您正在查询的内容,以及最可能包含它的页面。

每个搜索引擎都有自己的公式 – 他们自己的算法 – 以不同的方式查看和解释数据,分配不同的值以提供尽可能准确的结果。

有些是非常先进的,并且经过十多年的精炼(并且不断磨练),比如谷歌,它现在甚至采用人工智能技术来确定你想要提供最准确的结果。有些更受限制或更直接,但对于在受限制的生态系统上工作的特定任务更有效。

例如,如果我想购买东西,我可能会在淘宝或京东的搜索引擎/生态系统中寻找更好的结果。