是什么引发了这个问题?
此问题报告链接到返回4xx或5xx HTTP响应代码的URL的页面。
为什么这很重要?
指向4xx或5xx URL的链接被称为"失效链接"。 网站上的失效链接会损害访问者的浏览体验,因为人们无法通过点击链接访问页面或文件。 此外,它们会为搜索引擎爬虫制造不必要的"死胡同",浪费抓取预算。
如何修复?
您可以在此报告的以下列中查看从受影响页面链接的失效URL及其HTTP响应代码:
指向4xx的内部出链
指向5xx的内部出链
指向4xx的外部出链
指向5xx的外部出链
以下是您在此报告中可能遇到的最常见HTTP状态代码及其修复方法:
404(未找到)HTTP状态码,表示链接的页面可能已被移动或删除,但链接未做更改。 要解决此问题,您可以恢复具有旧URL的页面,编辑引用页面上的链接以指向另一个相关页面,或者完全删除该链接。
或者,您可以为坏页面设置301重定向。 这对拥有大量入链的页面尤其重要。 不过,最好在您的网站上拥有直接链接。
403(禁止访问)HTTP状态码, 表示我们的爬虫无法访问链接的URL。 您的服务器可能在某个抓取点开始阻止来自我们爬虫的请求。 这可能是由于服务器或防火墙的配置。 您可以将我们的IP地址加入白名单,并重新进行抓取。
当您的页面有外部出链并且外部服务器阻止我们的爬虫时,也可能发生这种情况。
429(请求过多) HTTP状态码可能表示为您的项目在抓取设置中设置的抓取速度对于Web服务器来说太高。 在抓取设置中降低它,并重新运行项目抓取。
5xx(服务器错误)HTTP状态码表示某些服务器问题,您应与您的开发人员或托管服务提供商联系。 您的服务器可能配置不当、过载或普遍运行缓慢。
