首先,sitemap.xml是什么? 

首先,sitemap.xml中的xml是可延伸标记式语言(ExtensibleMarkupLanguage)的简称,是专门让电脑阅读和理解的语言,通过XML,电脑可处理包含各种资讯的文章。

sitemap.xml利用xml的语言规范,让网站管理员制作包含网站所有页面的目录档案,即网站地图sitemap供搜寻引擎爬取,搜寻引擎就会得知网站内有什么页面。 

sitemap.xml与搜寻引擎优化的关系? 

简单来说,搜寻引擎透过网络爬虫(Crawler)抓取网站页面,进行分析与索引,于是得出了搜寻结果的排名。然而,爬虫逐页爬取的效率和时间会影响到索引结果,因此,向搜寻引擎提供sitemap.xml,就方便了爬虫有效率地抓取网站页面,并在搜寻结果页上提供页面索引,提升网页SEO排名。 

如何在SEO层面上优化sitemap.xml? 

sitemap.xml就像网站提供给搜寻引擎的URL路线图,定期作出检查,能够防止搜寻引擎爬取不正确的URL、确保重要的URL能够被爬取,以及不会遗失重要的URL。以下是您应该进行的2项检查: 

1.有否遗失了重要的URL? 

您必项检查关键页面的URL是否在sitemap中,如果您使用的是静态的sitemap,有可能保持网站创建时仅有的URL,随着网站的发展和建设,这个sitemap可能已经过时。所以,使用能够自动更新的动态sitemap会比较好。 

当然,应定时定候主动检查sitemap设置,确保sitemap包含到所有关键页面。您可以使用ScreamingFrog或Deepcrawl这类网站爬虫,他们提供将sitemap包含在爬取中的选项,您便可以将网站抓取中的URL与sitemap.xml中的URL进行比较,以查找有没有遗失URL。 

2.搜寻引擎是否已索引了sitemap.xml所有URL? 

想了解搜寻引擎对哪些URL建立了索引,可以上传sitemap档案到GoogleSearchConsole或百度站长。 

参阅覆盖率报告,搜寻引擎对sitemap的覆盖率。还可以使用GoogleSearchConsole的URL检查功能去测试页面的质量和内部链接,找到URL未被搜寻引擎索引的原因,例如404NotFound、重复提交相同的URL、孤立的URL等等。大型网站可以将大型网站可以将URL分拆成数个子sitemap再分别提交,让GoogleSearchConsole提供更具针对性的覆盖报告,并对网站作出更全面的优化。