什么是机器人排除协议(REP)?
Posted: Tue Feb 18, 2025 8:50 am
这是一种快速简便的方法,可以暂时从 Google 搜索结果中删除 URL。当请求被接受时,封锁最多持续 90 天。此后,该信息可能会再次显示在结果中。如果 Googlebolt 无法再访问该 URL,则会认定该页面已被删除。因此,它会将此 URL 上检测到的任何页面视为新页面。然后它就会出现在 Google 搜索结果中。
网站管理员 Martijn Koster 在他的网站遭到爬虫入侵后于 1994 年创建了一项标准。这就是机器人排除协议(REP)。因此,REP 是在许多其他网站管理员的贡献下创建的。它后来被搜索引擎采用来帮助网 突尼斯电话号码数据 站所有者。目标是帮助他们更轻松地管理服务器资源。
文本资源位于网站的根目录,包含不应被搜索引擎爬虫索引的 URL 列表。因此,按照惯例,机器人会在索引网站之前阅读 robots.txt。在网络服务器上,机器人排除协议通常存储在这个文本文件中。
因此,任何没有经过证实的公共利益的资源都不会出现在搜索引擎的结果中。这减少了 HTTP 服务器的工作量和计算机网络上的流量。然而,不应忽视的是,该协议没有安全标准;这是对仁慈机器人的一个暗示。
一些机器人故意忽略文件来查找个人信息。 robots.txt 还可以包含 XML 格式的站点地图,即专用于搜索引擎的站点地图地址。
网站管理员 Martijn Koster 在他的网站遭到爬虫入侵后于 1994 年创建了一项标准。这就是机器人排除协议(REP)。因此,REP 是在许多其他网站管理员的贡献下创建的。它后来被搜索引擎采用来帮助网 突尼斯电话号码数据 站所有者。目标是帮助他们更轻松地管理服务器资源。
文本资源位于网站的根目录,包含不应被搜索引擎爬虫索引的 URL 列表。因此,按照惯例,机器人会在索引网站之前阅读 robots.txt。在网络服务器上,机器人排除协议通常存储在这个文本文件中。
因此,任何没有经过证实的公共利益的资源都不会出现在搜索引擎的结果中。这减少了 HTTP 服务器的工作量和计算机网络上的流量。然而,不应忽视的是,该协议没有安全标准;这是对仁慈机器人的一个暗示。
一些机器人故意忽略文件来查找个人信息。 robots.txt 还可以包含 XML 格式的站点地图,即专用于搜索引擎的站点地图地址。