任何一个网站,无论规模大小,都要建立在seo基础上。对于大型网站而言,良好的底层优化可以增加页面索引量和有机可见性。

“大型网站”的定义无疑会因个人观点的不同而有所不同,但就本文的目的而言,我指的是拥有数十万个url的网站。

为什么大型网站seo难做?

首先,这些站点的规模意味着基本技术错误的存在可能会成倍增加,随着时间的推移,这些问题可能会降低站点的整体质量,并导致索引和可见性问题。

其次,大型网站会给搜索引擎爬虫带来挑战,因为它们需要了解网站结构、要抓取的网页以及抓取网站的时间。

对于大型网站而言,或者那些基于URL参数自动生成页面的网站来说,区分抓取内容的优先级、抓取时间以及托管网站的服务器可以分配多少资源来进行抓取更为重要。

对于大型网站,我们需要给搜索引擎爬虫尽可能最好的体验,减少关于抓取哪些页面的混乱,最终使整个抓取过程尽可能高效。

大型网站优化需要注意的6个方面

1.站点地图错误

确保XML站点地图准确和最新,还需要确保站点地图本身的构建配置正确。如果不是,那么Baidu Spider可能会遇到错误,因此无法抓取所引用的页面。

2.页面速度和服务器响应时间较差

近年来,在考虑网站质量时,页面加载速度和网站稳定性已经成为百度搜索排名的核心考虑因素。如果网站页面加载缓慢,那么搜索引擎爬虫也会遭遇这种糟糕的体验。服务器响应太慢会导致爬虫程序根本无法连接到服务器来抓取url,因此,搜索引擎被迫放弃请求。

3.404错误

大型网站seo的另一个常见问题是“404 NOT FOUND”的,这些实际上是站点上已经不存在的页面,404状态代码应该始终被监控,建议优先处理404错误,并修复那些需要修复的错误,任何不需要重定向的url都应该在百度站长索引中提交删除。

4.重复内容

大型网站=大量的重复内容

内容重复的性质通常分为两个核心类别

网站技术构建的问题

有问题的页面上的物理内容。

在这两种情况下,重复的内容通常可以通过规范化策略的实现来处理,但是很多大型网站没有使用canonical标记(rel canonical)来引导搜索引擎爬虫识别重复内容。

规范标记(又名“rel canonical”)是一种通知搜索引擎爬行器某个特定URL表示页面的主副本的方法,在搜索引擎可能因重复或类似URL而产生混淆时,它可以让搜索爬虫区分页面的主副关系。

5.URL结构、子域和协议

URL结构是大型网站seo的一个常见问题,例如带有和不带有后斜杠(有时在URL结构中还有下划线),每个版本都返回一个200 OK头状态代码。

如果发生这种情况,那么每个URL都将被视为唯一的URL,在配置不正确的子域和http协议中(www 和非www & http和https),一个URL可能导致存在5或6个副本。

确保http 301重定向到https,选择站点的www或非www的其中一个版本作为主要版本,并在百度搜索控制台中设置优先级,同时确保301个版本重定向到另一个版本。

6.分面导航、过滤器和内部搜索

当一个页面在多个子文件夹中可用/可访问时,规范url将帮助解决重复的内容问题。当一个产品或服务符合多个类别时,这种情况自然会发生,但是如果没有规范的(主URL)集,那么搜索引擎将看到多个重复的页面,并且不确定应该将哪个页面包含在索引中。

当大型网站使用分面导航来允许用户定位产品时,也会出现这个问题。如下图,用户可以通过多种方式在类别中对产品进行排序,包括多种排列,因此可能生成数千个独特的url。根据站点的规模以及产品排序和查看的方式,无法处理分面导航可能会导致大规模的重复问题。

分面导航

不仅如此,搜索引擎还会花时间抓取过滤后的url,这是对爬行预算的巨大消耗。这可能导致爬行的页面价值降低,而希望索引的页面仍然未被发现。建议将分面url规范化回主类别页面,利用robots.txt文件阻止这些url的爬行,以节省爬行预算。

分页的内容

分页在大型站点上很常见,当内容跨越多个数字页面作为分类系列的一部分时,就会发生分页。在大型网站上,如果处理不当,分页可能会导致技术SEO问题,包括爬虫程序的限制(因为他们可能会花时间爬行并尝试索引本系列中的所有页面)和重复的内容问题, 为了尽可能优化抓取效率,建议实现Rel= ” Prev ” / ” next “来指示组件url之间的关系。

例子:

第1页:

< link rel = “下一页” href = “www.simcf.cc/page2.html ” >

第2页:

< link rel = “上一页” href = “www.simcf.cc /page1.html ” >

< link rel = “下一页” href = “www.simcf.cc /page3.html ” >

结论

上面的一些问题是大型网站seo经常遇到的最常见的问题,特别是在分析大型网站时,优先注意以上的6个方面,并找出影响搜索引擎抓取的因素加以修复。