通常,您可以使用“删除 URL 参数”或使用排除规则避免对匹配特定查询或查询模式的网址进行抓取。
要访问这些设置,请转到项目设置 > Site Audit > 抓取设置。 注意:此选项在创建新项目时也可用。
包含和排除网址
仅抓取匹配模式的网址 - 我们会匹配网站地图链接的完整 URL。
例如,/products - 仅将包含/products 的网址包含在内。
不要抓取匹配模式的网址 - 我们会匹配网站地图链接的完整 URL。
例如,/news - 排除包含/news 的网址。
*注意:这些规则接受正则表达式。 这里有一篇更详细的帮助文章,介绍 如何在Site Audit高级版过滤器中使用正则表达式及设置"包含"和"排除"规则的抓取.
删除 URL 参数:
开启此选项意味着当网址有参数时,我们会移除它们并在没有参数的情况下进行抓取。
示例:
ahrefs.com/help/?query=A
ahrefs.com/help/?query=B
ahrefs.com/help/?query=C
仅 ahrefs.com/help/ 会被抓取。
删除 Nofollow 链接:
进入 Site Audit > + 新项目 > 抓取设置。
在这里,您可以打开和关闭“Follow Nofollow 链接”。
删除 noindex 页面:
由于我们的机器人在抓取之前无法判断页面是否设置为 noindex,因此在抓取之前无法排除 noindex 页面。
请参阅上文以手动排除网址。
*请注意,当页面设置为 noindex 时,Google 仍会抓取,但不会在结果中显示。
虽然您无法在抓取过程中排除 noindex 页面,但可以从 Site Audit 报告中排除 noindex 数据。


