机器人(Robot)是一种能够半自主或全自主工作的智能机器人。历史上最早的机器人见于隋炀帝命工匠按照柳抃形象所营造的木偶机器人,施有机关,有坐、起、拜、伏等能力。

本页面主要目录有关于机器人的:基本语法、应用案例、使用必要等介绍

中文名

机器人

yahoo蜘蛛

slurp

地方

搜索引擎优化SEO

类型

探测器

google蜘蛛

google蜘蛛

百度蜘蛛

baiduspider

外文名

Robot

alexa蜘蛛

ia_archiver

msn蜘蛛

msnbot

altavista蜘

scooter

lycos蜘蛛

lycos_spider_(t-rex)

alltheweb蜘

fast-webcrawler/

inktomi蜘蛛

slurp

简介

机器人具有感知、决策、执行等基本特征,可以辅助甚至替代人类完成危险、繁重、复杂的工作,提高工作效率与质量,服务人类生活,扩大或延伸人的活动及能力范围。

基本语法

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

User-agent:描述搜索引擎robot的名字

即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部

Disallow: 描述不希望被访问的一组URL

设定禁止访问的部分,可以用完整url ,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型

Allow: 描述希望被访问的一组URL

设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。

关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字符。

应用案例

我们在进行网站优化的时候,很多时候需要把一些无用连接,及二级目录,还有一些重要的文件,如后台管理,这些我们都是不希望蜘蛛抓取到的,我们可以使用robots进行屏蔽,以防权重丢失或一些重要的文件被别人看到!

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的搜索引擎访问

User-agent: *

Allow: /

或者

可以建一个空文件“robots.txt“里面什么都不要写

例3. 仅禁止百度抓取网站所有文件

User-agent: Baiduspider

Disallow: /

例4. 仅允许百度访问网站

User-agent: Baiduspider

Allow: /

User-agent: *

Disallow: /

例5. 禁止搜索引擎抓取特定目录

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /joe/

例6. 只允许搜索引擎抓取cgi-bin目录下的see目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Disallow: /cgi-bin/

例7. 禁止抓取/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)

User-agent: *

Disallow: /cgi-bin/*.htm

例8. 仅允许抓取以”.gif”为后缀的URL

User-agent: *

Allow: .gif$

Disallow: /

例9. 禁止抓取网站中所有的动态页面

User-agent: *

Disallow: /*?*

例10. 仅禁止百度抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$

例11、allow:(允许语法)用来定义允许蜘蛛爬取的页面或子目录

例:禁止百度收录admin的文件夹,允许收录admin文件中的/a.asp/b.asp

User-agent:Baiduspider

Disallow:/admin/

Allow:/admin/a.asp

Allow:/admin/b.asp

例12、”$”匹配行结束符”*”匹配0或多个任意字符

例:屏蔽百度蜘蛛以.php结束的所有页面

User-agent: Baiduspider

Disallow:.php$

或者User-agent: Baiduspider

Disallow:/*.php

使用必要

“每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。”

关于这一点呢,我个人是不太认可的,这么多年过去了,搜索引擎没理由连这么简单的404都无法分辨出来的,我并不是在否认这段话,

google对于一个网站的评价标准有很多,一个网站是否存在sitemap,必然也是该站是否完整的衡量标准之一(纯属个人猜测),所以,我不认可的只是404。

此外,robots.txt可以有效地节省你的流量。

我相信很多草根站长都是从虚拟空间开始起家的,一开始的流量,带宽都是有限制的,而搜索引擎对网站的抓取必然也是要占用流量的,所以避免搜索引擎“无效的抓取”就显得十分重要了,如,缓存文件,临时文件,上传文件夹,用户中心 等feimlww1027,屏蔽掉这些文件目录,一方面能降低流量消耗,另一方面偶尔也能保证收录的质量(临时页面如果和实际文件内容类似 搜索引擎会有点迷惑的)。