怎样让百度搜查不到自己的网站 (怎样让百度搜不到自己的任何信息)

文章编号：10280 / 分类：SEO教程 / 更新时间：2024-06-27 06:20:42 / 浏览：次
怎样让百度搜不到自己的任何信息

可以设置文件来制止网络蜘蛛抓取网站消息。

写法：

User-agent: *

或许

User-agent: *

假设须要制止某一个搜查引擎抓取网站的话，如网络，可以作一下写法：

User-agent: baiduspider

Disallow: /

假设制止一切引擎抓取，写法：

User-agent: *

Disallow: /

留意文件是放在网站根目录的。

写好上转后，可以测试一下：

如：你的网址/

如何不再让自己的消息被搜查引擎搜到

其中的属性说明如下：设定为all：文件将被检索，且页面上的链接可以被查问；设定为none：文件将不被检索，且页面上的链接无法以被查问；设定为index：文件将被检索；设定为follow：页面上的链接可以被查问；设定为noindex：文件将不被检索，但页面上的链接可以被查问；设定为nofollow：文件将不被检索，页面上的链接可以被查问。

-----------------------------------咱们知道，搜查引擎都有自己的“搜查机器人”（ROBOTS），并经过这些ROBOTS在网络上沿着网页上的链接（普通是http和src链接）始终抓取资料建设自己的数据库。

关于网站治理者和内容提供者来说，有时刻会有一些站点内容，不宿愿被ROBOTS抓取而地下。

为了处置这个疑问，ROBOTS开发界提供了两个方法：一个是，另一个是The Robots META标签。

一、1、什么是？是一个纯文本文件，经过在这个文件中申明该网站中不想被robots访问的局部，这样，该网站的局部或所有内容就可以不被搜查引擎收录了，或许指定搜查引擎只收录指定的内容。

当一个搜查机器人访问一个站点时，它会首先审核该站点根目录下能否存在，假设找到，搜查机器人就会依照该文件中的内容来确定访问的范畴，假设该文件不存在，那么搜查机器人就沿着链接抓取。

必定搁置在一个站点的根目录下，而且文件名必定所有小写。

网站 URL 相应的的 URLhttp:///://:80/://:1234/:///2 、的语法文件蕴含一条或更多的记载，这些记载经过空行离开（以CR,CR/NL, or NL作为完结符），每一条记载的格局如下所示：:。

在该文件中可以经常使用#启动注解，详细经常使用方法和UNIX中的惯例一样。

该文件中的记载理论以一行或多行User-agent开局，前面加上若干Disallow行,详细状况如下：User-agent: 该项的值用于形容搜查引擎robot的名字，在文件中，假设有多条User-agent记载说明有多个robot会遭到该协定的限度，对该文件来说，至少要有一条User-agent记载。

假设该项的值设为*，则该协定对任何机器人均有效，在文件中， User-agent：*这样的记载只能有一条。

Disallow :该项的值用于形容不宿愿被访问到的一个URL，这个URL可以是一条完整的门路，也可以是局部的，任何以Disallow 扫尾的URL均不会被robot访问到。

例如Disallow: /help对/ 和/help/都不准许搜查引擎访问，而Disallow: /help/则准许robot访问/，而不能访问/help/。

任何一条Disallow记载为空，说明该网站的一切局部都准许被访问，在/文件中，至少要有一条Disallow记载。

假设 /是一个空文件，则关于一切的搜查引擎robot，该网站都是开明的。

上方是一些基本的用法：l 制止一切搜查引擎访问网站的任何局部：User-agent: *Disallow: /l 准许一切的robot访问User-agent: *Disallow:或许也可以建一个空文件 / filel 制止一切搜查引擎访问网站的几个局部（下例中的cgi-bin、tmp、private目录）User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/l 制止某个搜查引擎的访问（下例中的BadBot）User-agent: BadBotDisallow: /l 只准许某个搜查引擎的访问（下例中的WebCrawler）User-agent: WebCrawlerDisallow:User-agent: *Disallow: /3、经常出现搜查引擎机器人Robots名字称号搜查引擎BaiduspiderScooteria_archiverGooglebotFAST-WebCrawlerSlurpMSNBOT4、举例上方是一些驰名站点的：http:///5 、经常出现失误l 颠倒了顺序：失误写成User-agent: *Disallow: GoogleBot正确的应该是：User-agent: GoogleBotDisallow: *l 把多个制止命令放在一行中：例如，失误地写成Disallow: /css/ /cgi-bin/ /images/正确的应该是Disallow: /css/ Disallow: /cgi-bin/ Disallow: /images/l 行前有少量空格例如写成Disallow: /cgi-bin/虽然在规范没有谈到这个，然而这种方式很容易出疑问。

l 404重定向到另外一个页面：当Robot访问很多没有设置文件的站点时，会被智能404重定向到另外一个Html页面。

这时Robot经常会以处置文件的方式处置这个Html页面文件。

虽然普通这样没有什么疑问，然而最好能放一个空白的文件在站点根目录下。

l 驳回大写。

例如USER-AGENT: EXCITEDISALLOW: 虽然规范是没有大小写的，然而目录和文件名应该小写：user-agent:GoogleBotdisallow: l 语法中只要Disallow，没有Allow！失误的写法是：User-agent: Baiduspider Disallow: /john/allow: /jane/l 遗记了斜杠/失误的写做：User-agent: Baiduspider Disallow: Css正确的应该是User-agent: Baiduspider Disallow: /css/ 上方一个小工具专门审核文件的有效性：二、Robots META标签1、什么是Robots META标签文件重要是限度整个站点或许目录的搜查引擎访问状况，而Robots META标签则重要是针对一个个详细的页面。

和其余的META标签（如经常使用的言语、页面的形容、关键词等）一样，Robots META标签也是放在页面的中，专门用来通知搜查引擎ROBOTS如何抓取该页的内容。

详细的方式相似（见黑体局部）：时代营销--网络营销专业门户… 2、Robots META标签的写法：Robots META标签中没有大小写之分，name=”Robots”示意一切的搜查引擎，可以针对某个详细搜查引擎写为name=”BaiduSpider”。

content局部有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令通知搜查机器人抓取该页面；FOLLOW 指令示意搜查机器人可以沿着该页面上的链接继续抓取下去；Robots Meta标签的缺省值是INDEX和FOLLOW，只要inktomi除外，关于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合：其中可以写成；可以写成须要留意的是：上述的和Robots META标签限度搜查引擎机器人（ROBOTS）抓取站点内容的方法只是一种规定，须要搜查引擎机器人的配合才行，并不是每个ROBOTS都遵守的。

目前看来，绝大少数的搜查引擎机器人都遵守的规定，而关于Robots META标签，目前支持的并不多，然而正在逐渐参与，如驰名搜查引擎GOOGLE就齐全支持，而且GOOGLE还参与了一个指令“archive”，可以限度GOOGLE能否保管网页快照。

例如：示意抓取该站点中页面并沿着页面中链接抓取，然而不在GOOLGE上保管该页面的网页快照。