跳转到主要内容

我应该如何配置我的 Site Audit 设置?

了解更多关于 Site Audit 设置的位置,并如何设置它以准确地抓取您想要抓取的内容。

Constance Tan avatar
作者:Constance Tan
本周更新

内容


Site Audits 由我们的爬虫 AhrefsSiteAudit 执行。 有关此特定机器人的更多信息 点击这里

在 Ahrefs,我们提供了非常全面的选项,让您能够灵活地控制并执行 Site Audit。

每个设置部分的概览

首先,进入项目的 Site Audit 设置。 您将找到三个部分:

1。 日程安排

此设置配置定期安排 Site Audit 对您网站进行抓取的时间和频率。 您可以从日期到时间和时区进行调整,以安排 Site Audit 的抓取任务:

请注意,实际抓取可以在所选时间段内的任何时间开始。 如果您不希望 Site Audit 自动运行,请关闭“运行计划抓取”。

2。 网址来源

URL 来源指定 "种子URL",即 Site Audit 将尝试首先访问的起始页面。 默认情况下,只会选择“网站”和“自动检测到的网站地图”选项,这在您只想在这个项目范围内抓取所有页面时是最佳选择。

💡 如果您只想抓取特定网站地图的 URL,请按照本指南

💡 点击此切换开关以获取所有 5 个 URL 来源或种子 URL 选项的更多信息

  1. 网站。 选中此框表示 Site Audit 将项目 URL 作为抓取的起点。 也就是说,无论您输入了什么 URL 设置在此项目的范围内:

  2. 自动检测网站地图。 选中此框表示 Site Audit 将从您网站的 robots.txt 文件中列出的网站地图文件开始抓取。 如果 robots.txt 文件没有列出网站地图,Site Audit 将检查默认网站地图位置:

  3. 特定网站地图。 选中此框允许您从自定义网站地图文件列表开始抓取。 一旦选中框,输入框将打开以输入网站地图 URL:

  4. 自定义 URL 列表 选中此框允许您输入 Site Audit 开始抓取的 URL 列表,包括在提供的输入框中或从 CSV / TXT 文件上传。 文件大小限制为 16Mb。 需要注意的是,仅会抓取项目范围内的网址。

  5. 反向链接 勾选此框意味着 Site Audit 将从我们数据库中具有外部反向链接的网址开始抓取您的网站。 您可以通过将项目 URL 输入 Site Explorer 并检查其反向链接报告来查看这些 URL 是哪些:

3。 抓取设置

这里有一个可用设置选项的相当大的列表,每个都有工具提示提供关于每个工具提示的更多信息:

点击每个下面的切换开关以获取有关每个设置选项的更多信息:

速度设置

控制爬虫"跟随"您网站链接的速度。 在以下示例中,每分钟抓取 30,000 个 URL。

设置

  • 在下面的示例设置中:
    检查任何页面时,爬虫不会渲染 javascript。 但它会检查图像、CSS 和 javascript 链接是否存在问题。

  • 爬虫还会点击非规范页面上的链接,并单击 Nofollow 链接。

  • 爬虫将完全忽略项目网站范围之外的任何链接

  • 爬虫也会按原样检查链接,不会去除URL 参数

限制

此部分指的是爬虫将停止尝试抓取新页面的阈值。 在下面的示例中,当 任何限制被达到时,爬虫将停止:

  • 已抓取 10,000 个页面

  • 抓取持续 48 小时

下面页中的任何页面将被忽略:

  • 从种子往下 16 层

  • 深度超过 16 个文件夹

  • URL 长度超过 2048 个字符

  • URL 查询参数超过 12 个

Site Audit 限制

机器人指令

在此部分,您可以指示爬虫忽略 robots.txt 并将用户代理从桌面更改为移动设备。 桌面和移动设备的完整用户代理字符串可以在 AhrefsSiteAudit 自己的页面 上找到。

此功能仅适用于已验证项目。 它用于审计网站中可能被禁止爬虫抓取的部分。

身份验证

该功能适用于高级版订阅用户及以上。 如果您的网站通过 HTTP 身份验证受密码保护,您可以打开切换开关并输入爬虫在抓取网站时使用的密码。

网页速度分析

网页速度分析(PSI)有助于评估网页的速度和用户体验。 如果 PSI 分数低,Site Audit 将标记任何页面。 您需要输入 Google 提供的 API 才能使用此功能。

包含和排除网址

使用此功能可抓取特定页面,或使用正则表达式避免抓取特定页面。 查看本文以获取有关如何使用正则表达式的更多信息,以及您可尝试的一些示例。

请注意,仅接受正则表达式。 如果输入框中的数据未形成有效的正则表达式,将被忽略。 请不要在输入框中输入空行。

URL 重写规则

您可以查看如何使用此字段(尤其是使用正则表达式)的示例在这里

常见问题

我是 Site Audit 的新手。 我应该使用哪些设置?

如果您希望完整抓取网站,只需保持默认设置即可。 我们建议,如果您的网站大量使用 javascript 来生成页面内容,您应开启“执行 Javascript”切换开关。 如果您仍然不确定,可以通过电子邮件在线聊天联系我们的支持团队。

我更改了 Site Audit 设置,但我的网站审计报告中没有任何变化。 为什么?

保存的项目设置更改将仅适用于新的 Site Audit 抓取。 过去或正在进行的 Site Audit 抓取将不会受到影响。

我网站在 Site Explorer 的数据错误或不完整。 这是因为我未在 Site Audit 中正确抓取网站吗?

在 Site Audit 中抓取不会更新 Site Explorer 中的任何数据。 Site Explorer 的数据由AhrefsBot填充,它与 Site Audit 的爬虫不同。 如果网站是新的,我们的爬虫可能需要一些时间才能抓取到它。 否则,请在这里检查您网站是否存在我们的爬虫访问问题。

这是否解答了您的问题?