如何不再让自己的消息被搜查引擎搜到 (如何不再让自己不喜欢的女人再在看你)

文章编号：10465 / 分类：SEO教程 / 更新时间：2024-06-27 10:36:08 / 浏览：次
如何不再让自己不喜欢的女人再在看你

其中的属性说明如下：设定为all：文件将被检索，且页面上的链接可以被查问；设定为none：文件将不被检索，且页面上的链接无法以被查问；设定为index：文件将被检索；设定为follow：页面上的链接可以被查问；设定为noindex：文件将不被检索，但页面上的链接可以被查问；设定为nofollow：文件将不被检索，页面上的链接可以被查问。

-----------------------------------咱们知道，搜查引擎都有自己的“搜查机器人”（ROBOTS），并经过这些ROBOTS在网络上沿着网页上的链接（普通是http和src链接）始终抓取资料建设自己的数据库。

关于网站治理者和内容提供者来说，有时刻会有一些站点内容，不宿愿被ROBOTS抓取而地下。

为了处置这个疑问，ROBOTS开发界提供了两个方法：一个是，另一个是The Robots META标签。

一、1、什么是？是一个纯文本文件，经过在这个文件中申明该网站中不想被robots访问的局部，这样，该网站的局部或所有内容就可以不被搜查引擎收录了，或许指定搜查引擎只收录指定的内容。

当一个搜查机器人访问一个站点时，它会首先审核该站点根目录下能否存在，假设找到，搜查机器人就会依照该文件中的内容来确定访问的范畴，假设该文件不存在，那么搜查机器人就沿着链接抓取。

必定搁置在一个站点的根目录下，而且文件名必定所有小写。

网站 URL 相应的的 URLhttp:///://:80/://:1234/:///2 、的语法文件蕴含一条或更多的记载，这些记载经过空行离开（以CR,CR/NL, or NL作为完结符），每一条记载的格局如下所示：:。

在该文件中可以经常使用#启动注解，详细经常使用方法和UNIX中的惯例一样。

该文件中的记载理论以一行或多行User-agent开局，前面加上若干Disallow行,详细状况如下：User-agent: 该项的值用于形容搜查引擎robot的名字，在文件中，假设有多条User-agent记载说明有多个robot会遭到该协定的限度，对该文件来说，至少要有一条User-agent记载。

假设该项的值设为*，则该协定对任何机器人均有效，在文件中， User-agent：*这样的记载只能有一条。

Disallow :该项的值用于形容不宿愿被访问到的一个URL，这个URL可以是一条完整的门路，也可以是局部的，任何以Disallow 扫尾的URL均不会被robot访问到。

例如Disallow: /help对/ 和/help/都不准许搜查引擎访问，而Disallow: /help/则准许robot访问/，而不能访问/help/。

任何一条Disallow记载为空，说明该网站的一切局部都准许被访问，在/文件中，至少要有一条Disallow记载。

假设 /是一个空文件，则关于一切的搜查引擎robot，该网站都是开明的。

上方是一些基本的用法：l 制止一切搜查引擎访问网站的任何局部：User-agent: *Disallow: /l 准许一切的robot访问User-agent: *Disallow:或许也可以建一个空文件 / filel 制止一切搜查引擎访问网站的几个局部（下例中的cgi-bin、tmp、private目录）User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/l 制止某个搜查引擎的访问（下例中的BadBot）User-agent: BadBotDisallow: /l 只准许某个搜查引擎的访问（下例中的WebCrawler）User-agent: WebCrawlerDisallow:User-agent: *Disallow: /3、经常出现搜查引擎机器人Robots名字称号搜查引擎BaiduspiderScooteria_archivergooglebotFAST-WebCrawlerSlurpMSNBOT4、举例上方是一些驰名站点的：http:///5 、经常出现失误l 颠倒了顺序：失误写成User-agent: *Disallow: GoogleBot正确的应该是：User-agent: GoogleBotDisallow: *l 把多个制止命令放在一行中：例如，失误地写成Disallow: /css/ /cgi-bin/ /images/正确的应该是Disallow: /css/ Disallow: /cgi-bin/ Disallow: /images/l 行前有少量空格例如写成Disallow: /cgi-bin/虽然在规范没有谈到这个，然而这种方式很容易出疑问。

l 404重定向到另外一个页面：当Robot访问很多没有设置文件的站点时，会被智能404重定向到另外一个Html页面。

这时Robot经常会以处置文件的方式处置这个Html页面文件。

虽然普通这样没有什么疑问，然而最好能放一个空白的文件在站点根目录下。

l 驳回大写。

例如USER-AGENT: EXCITEDISALLOW: 虽然规范是没有大小写的，然而目录和文件名应该小写：user-agent:GoogleBotdisallow: l 语法中只要Disallow，没有Allow！失误的写法是：User-agent: Baiduspider Disallow: /john/allow: /jane/l 遗记了斜杠/失误的写做：User-agent: Baiduspider Disallow: CSS正确的应该是User-agent: Baiduspider Disallow: /css/ 上方一个小工具专门审核文件的有效性：二、Robots META标签1、什么是Robots META标签文件重要是限度整个站点或许目录的搜查引擎访问状况，而Robots META标签则重要是针对一个个详细的页面。

和其余的META标签（如经常使用的言语、页面的形容、关键词等）一样，Robots META标签也是放在页面的中，专门用来通知搜查引擎ROBOTS如何抓取该页的内容。

详细的方式相似（见黑体局部）：时代营销--网络营销专业门户… 2、Robots META标签的写法：Robots META标签中没有大小写之分，name=”Robots”示意一切的搜查引擎，可以针对某个详细搜查引擎写为name=”BaiduSpider”。

content局部有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令通知搜查机器人抓取该页面；FOLLOW 指令示意搜查机器人可以沿着该页面上的链接继续抓取下去；Robots Meta标签的缺省值是INDEX和FOLLOW，只要inktomi除外，关于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合：其中可以写成；可以写成须要留意的是：上述的和Robots META标签限度搜查引擎机器人（ROBOTS）抓取站点内容的方法只是一种规定，须要搜查引擎机器人的配合才行，并不是每个ROBOTS都遵守的。

目前看来，绝大少数的搜查引擎机器人都遵守的规定，而关于Robots META标签，目前支持的并不多，然而正在逐渐参与，如驰名搜查引擎GOOGLE就齐全支持，而且GOOGLE还参与了一个指令“archive”，可以限度GOOGLE能否保管网页快照。

例如：示意抓取该站点中页面并沿着页面中链接抓取，然而不在GOOLGE上保管该页面的网页快照。

不想让BAIDU搜到自己的团体消息怎样办？（现已搜到）

我不想我的网站被baiduspider访问，我该怎样做？baiduspider遵守互联网robots协定。

您可以应用文件齐全制止baiduspider访问您的网站，或许制止baiduspider访问您网站上的局部文件。

留意：制止baiduspider访问您的网站，将使您的网站上的网页，在网络搜查引擎以及一切网络提供搜查引擎服务的搜查引擎中无法被搜查到。

关于的写作方法，请参看咱们的引见写作方法制止搜查引擎收录的方法什么是文件?搜查引擎经过一种程序robot（又称spider），智能访问互联网上的网页并失掉网页消息。

您可以在您的网站中创立一个纯文本文件，在这个文件中申明该网站中不想被robot访问的局部，这样，该网站的局部或所有内容就可以不被搜查引擎收录了，或许指定搜查引擎只收录指定的内容。

前往页首文件放在哪里?文件应该放在网站根目录下。

举例来说，当robots访问一个网站（比如）时，首先会审核该网站中能否存在这个文件，假设机器人找到这个文件，它就会依据这个文件的内容，来确定它访问权限的范畴。

网站 URL 相应的的 URLhttp:///://:80/http://:1234/:///http:/// 前往页首文件的格局文件蕴含一条或更多的记载，这些记载经过空行离开（以CR,CR/NL, or NL作为完结符），每一条记载的格局如下所示：:。

在该文件中可以经常使用#启动注解，详细经常使用方法和UNIX中的惯例一样。

该文件中的记载理论以一行或多行User-agent开局，前面加上若干Disallow行,详细状况如下：User-agent:该项的值用于形容搜查引擎robot的名字，在文件中，假设有多条User-agent记载说明有多个robot会遭到该协定的限度，对该文件来说，至少要有一条User-agent记载。

假设该项的值设为*，则该协定对任何机器人均有效，在文件中，User-agent:*这样的记载只能有一条。

Disallow:该项的值用于形容不宿愿被访问到的一个URL，这个URL可以是一条完整的门路，也可以是局部的，任何以Disallow扫尾的URL均不会被robot访问到。

例如Disallow:/help对/ 和/help/都不准许搜查引擎访问，而Disallow:/help/则准许robot访问/，而不能访问/help/。

任何一条Disallow记载为空，说明该网站的一切局部都准许被访问，在/文件中，至少要有一条Disallow记载。

假设/是一个空文件，则关于一切的搜查引擎robot，该网站都是开明的。

文件用法举例例1. 制止一切搜查引擎访问网站的任何局部下载该文件 User-agent: * Disallow: /例2. 准许一切的robot访问 (或许也可以建一个空文件 / file) User-agent: *Disallow: 例3. 制止某个搜查引擎的访问 User-agent: BadBotDisallow: /例4. 准许某个搜查引擎的访问 User-agent: baiduspiderDisallow: User-agent: *Disallow: /例5.一个便捷例子在这个例子中，该网站有三个目录对搜查引擎的访问做了限度，即搜查引擎不会访问这三个目录。

须要留意的是对每一个目录必定离开申明，而不要写成 Disallow: /cgi-bin/ /tmp/。

User-agent:后的*具备不凡的含意，代表any robot，所以在该文件中不能有Disallow: /tmp/* or Disallow:*这样的记载产生. User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/前往页首文件参考资料文件的更详细设置,请参看以下链接：· Web Server Administrators Guide to the Robots Exclusion Protocol · HTML Authors Guide to the Robots Exclusion Protocol · The original 1994 protocol description, as currently deployed· The revised Internet-Draft specification, which is not yet completed or implemented