跳转到主要内容

如何在Site Audit中避免抓取特定页面

了解如何排除 noindex 页面、Nofollow 链接、特定网址模式等.

Rebekah avatar
作者:Rebekah
本周更新

通常,您可以使用“删除 URL 参数”或使用排除规则避免对匹配特定查询或查询模式的网址进行抓取。

要访问这些设置,请转到项目设置 > Site Audit > 抓取设置。 注意:此选项在创建新项目时也可用。


包含和排除网址

仅抓取匹配模式的网址 - 我们会匹配网站地图链接的完整 URL。

例如,/products - 仅将包含/products 的网址包含在内。

不要抓取匹配模式的网址 - 我们会匹配网站地图链接的完整 URL。

例如,/news - 排除包含/news 的网址。

*注意:这些规则接受正则表达式。 这里有一篇更详细的帮助文章,介绍 如何在Site Audit高级版过滤器中使用正则表达式及设置"包含"和"排除"规则的抓取.

删除 URL 参数:

开启此选项意味着当网址有参数时,我们会移除它们并在没有参数的情况下进行抓取。

示例:
ahrefs.com/help/?query=A
ahrefs.com/help/?query=B
ahrefs.com/help/?query=C

仅 ahrefs.com/help/ 会被抓取。

删除 Nofollow 链接:

进入 Site Audit > + 新项目 > 抓取设置。

在这里,您可以打开和关闭“Follow Nofollow 链接”。

删除 noindex 页面:

由于我们的机器人在抓取之前无法判断页面是否设置为 noindex,因此在抓取之前无法排除 noindex 页面。

请参阅上文以手动排除网址。

*请注意,当页面设置为 noindex 时,Google 仍会抓取,但不会在结果中显示。


虽然您无法在抓取过程中排除 noindex 页面,但可以从 Site Audit 报告中排除 noindex 数据。



这是否解答了您的问题?