有时在 Site Explorer 概览中检查您的网站时,您可能会看到 被抓取页面 指标为 0:
可能有多种原因导致我们没有将该网站的任何页面收录到索引中。
首先,请在我们的机器人检查器中查看您的 robots.txt 状态: https://ahrefs.com/robot
现在,让我们分析可能阻止 AhrefsBot 抓取您网站页面的一些原因,并提供可能的解决方案。
Robots.txt 规则禁止抓取
目标网站正阻止我们的机器人进行抓取。 请从您服务器上的 robots.txt 文件中移除以下两行:
User-agent: AhrefsBot 
Disallow: /
Robots.txt 文件不可访问(通常返回 404 Not Found 错误)
AhrefsBot 用户代理在尝试读取网站的 robots.txt 时遇到 404 错误。 robots.txt 返回404 意味着可以进行抓取,但所有页面也都是404。 因此,页面相关数据如标题、内容及其 HTML 源码不可访问。
请将以下两行添加到您服务器上的 robots.txt 文件中:
User-agent: AhrefsBot
Allow: /
错误 403 禁止访问: 在 web 服务器配置中 IP 被阻挡
目标网站在服务器级别阻止了我们的爬虫访问。 请将我们的 IP 地址 和 用户代理 AhrefsBot 添加到您网站服务器的白名单中。
我们的 IP 列表:
错误 406 不可接受: 由用户代理的防火墙/安全插件阻止
我们的机器人目前被阻止,无法访问您的网站。 这可能是由于多种原因,如:您的网络服务器配置,托管提供商管理的防火墙,CDN 的保护等。 一些已知示例包括:ModSecurity、Sucuri、Cloudflare。
我们无能为力来解决这个问题;您必须采取措施解决此问题。
如果您不知道如何解决,请联系您的 Webmaster、托管公司或 CDN 以解除对我们的机器人的封锁。 如果他们的支持聊天系统使用票务系统,请使用 "技术支持" 或最相关的类别。
请随意使用以下模板:
---------------
您好,
我运行的域名是 <插入网址>,并希望请求解除对 AhrefsBot 抓取我域名的封锁。 我希望它可以抓取我的网站,但此功能当前被 <插入防火墙名称> 禁止;。 请在这里找到有关 AhrefsBot 爬虫的信息: https://ahrefs.com/robot
非常感谢。
----------------
