自动秒收录

搜索引擎蜘蛛收录网站robots.txt设置方法


文章编号:2433 / 更新时间:2023-12-11 / 浏览:

有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研究一下“如何让搜索引擎不收录我们的网站”,也许我们同样也用的到。

一、搜索引擎如何工作的? 搜索引擎蜘蛛收录网站robots.txt设置

简单的说,搜索引擎实际上依靠的庞大的网页数据库。按搜索方式可以分为 全文搜索 和 目录搜索 两种。

与全文搜索引擎相比,目录索引有许多不同之处。目录索引完全是手工操作的。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。

二、如何拒绝搜索引擎?

其实很简单的,只需要在网站的根目录中放一个名称为Robots.txt的文件,该文件的写法很有讲究的哦,务必按要求写,写法如下:

前面提到过搜索引擎的自动提取信息会遵循一定的算法,但是,无论算法如何,第一步都是在寻找这个文件。其含义是,“贵站对我们这些Robots有什么限制?”所谓的Robots就是搜索引擎派出的蜘蛛或者机器人。如果没有得到回应(没有找到这个文件),代表没有什么限制,尽管来抓取吧。如果真的有这个文件,机器人会读来看看,如果自己被拒绝就会停止抓取过程了。

遵循语法的Robots.txt才可能被机器人识别,至于语法,介绍起来很繁琐,现简单举例如下:

1)禁止所有搜索引擎访问网站的任何部分(也就是网站彻底的拒绝所有搜索引擎收录)

  User-agent: *   Disallow: /

2)允许所有的robot访问(也就是网站允许所有搜索引擎收录)

  User-agent: *   Disallow:

3)禁止某个搜索引擎的访问(比如禁止百度收录,按如下的方式写)

  User-agent: baiduspider  Disallow: /

4)允许某个搜索引擎的访问(比如允许百度收录,按如下的方式写)

  User-agent: baiduspider  Disallow:   User-agent: *   Disallow: /

5)禁止搜索引擎访问某些目录 


相关标签: 搜索引擎蜘蛛robots蜘蛛技巧超级蜘蛛查

本文地址:https://www.badfl.com/article/cfa918259077fb5ba2f3.html

上一篇:html中的meta标签是什么?有哪些属性?...
下一篇:DNS相关的文章搜索引擎营销推广...

发表评论

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="https://www.badfl.com/" target="_blank">自动秒收录</a>