Ahrefs运行我们自己的网络爬虫(称为AhrefsBot),访问数百万个网站以检索信息并将其存储在我们的记录中。 这就是Ahrefs构建其巨大链接索引的方式。
AhrefsBot严格遵守robots.txt的规则,包括不允许和允许规则。 因此,可以通过修改robots.txt来控制AhrefsBot的行为。
据我们所知,像Quora、LinkedIn和Slideshare等网站有:
阻止我们进行抓取,或
仅允许对他们的网站进行部分抓取。
这就是这些网站的反向链接(dofollow/nofollow)不在Ahrefs反向链接报告中显示的主要原因。
对于PDF文件,AhrefsBot不会抓取其中的链接、元数据等。
