丢失的链接来自由于各种原因从我们的索引中删除的页面。 这些包括:
页面重复: 我们抓取了一个内容相同的“更好”页面
禁用:页面已经被 robots.txt 禁止至少 6 个月
不可用:页面返回3次错误,上一次成功下载时间至少为 1 个月之前
域名不再存在
页面的页面评分较低
因此,即使链接本身可能仍然存在于页面上,我们也会将其标记为丢失: 当我们不再索引页面本身时丢失。
一般来说,我们只能为每个给定的域名/URL更新一定数量的页面。
因此,我们选择质量最高的并将其他页面从我们的索引中删除,以保持索引的新鲜和当前。
相关
