巧用robots文件管理引导搜索引擎蜘蛛对网站的抓取

文章编号：329 / 分类：互联网资讯 / 更新时间：2023-04-10 14:38:46 / 浏览：次

什么是搜索引擎蜘蛛？

搜索引擎蜘蛛是一种自动程序，它沿着从一个网页到另一个网页的链接在互联网上爬行，为内容编制索引并将其添加到数据库中。这意味着，只要网站有一个来自其他网站且搜索引擎已经知道的链接，然后它会找到随着时间的推移。链接到站点越多，发生这种情况的速度就越快。

不幸的是，这些蜘蛛可以非常密集地访问网站。这是因为他们加载每个页面和文件，以便为数据库编目。蜘蛛会导致虚拟专用数据库负载过高，可能会给访问者带来问题。为了帮助解决这些负载问题，有一种标准化的方法来控制这些爬虫的行为，方法是将名为robots.txt的文件放在网站的根目录中。但是，没有任何强制遵守此文件的内容。所以，虽然大多数网络搜索引擎爬虫会服从它，但有些爬虫可能不会。

robots.txt文件有特定的形式，请看以下示例：

按顺序查看每个指令行：

首先从“User-agent”（用户代理）行开始：机器人或网络浏览器将使用用户代理来标识自身，而各种搜索引擎爬虫将拥有自己的用户代理。遵循“User-agent”指令的任何其他指令将仅对给定的用户代理有效。带星号（*）的用户代理将被视为引用所有用户代理。在示例文件中，该指令与googlebot搜索引擎蜘蛛程序相关。

“Disallow”（禁止）指令用于告诉搜索引擎蜘蛛程序有关不加载的目录或文件。需要注意的是，尽管搜索引擎蜘蛛不会加载文件，如果它跟踪到它们的链接，它仍然会在搜索结果中列出这些文件。因此，它不能用来阻止页面出现在搜索结果中。“Disallow”可能是所有搜索引擎蜘蛛都支持的唯一指令。因此在示例中，不允许爬行/images目录。

“Allow”（允许）指令可用于指定搜索引擎蜘蛛可以加载的禁止目录中的文件或目录。虽然并不是所有的搜索引擎蜘蛛都支持这个指令，但大多数蜘蛛都支持。在示例中，允许蜘蛛加载/images/metadata目录中的文件。

最后，是“Sitemap”（网站地图）指令，可以将蜘蛛引导到网站的XML网站地图文件，它也可以用来帮助网站进行索引。

控制搜索引擎蜘蛛

扫描二维码推送至手机访问。

3浏览自媒体运营与推广

2浏览网站结构优化

2浏览外部链接建设

2浏览自媒体运营与推广