最近在仿站时发现,html模板里面有
<meta name='robots' content='index,follow' />
这个标签,以前没用过这个标签,查看文档才明白,此html标签表示允许搜索引擎抓取本页,并且本页的上其它链接可以被搜索引擎跟踪抓取。
为了禁止搜索引擎抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:
<meta name='robots' content='noindex,follow' />在这里,meta name=’robots’ 是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如谷歌是:meta name=”Googlebot”、百度是meta name=”Baiduspide” 等。
content 部分有五个命令:index、noindex、follow、nofollow,noarchive命令间以英文的“,”分隔。
index:允许本页被搜索引擎抓取
noindex:禁止本页被搜索引擎抓取
follow:允许本页的上其它链接可以被蜘蛛跟踪抓取
nofollow:禁止本页上的其它链接被蜘蛛跟踪抓取
noarchive:禁止搜索引擎对网站建立快照
根据以上的命令,我们就有了一下的五种组合
<meta name='robots' content='index,follow' />允许搜索引擎抓取本页,而且可以顺着本页继续索引别的链接
<meta name='robots' content='noindex,follow' />禁止搜索引擎抓取本页,但是可以顺着本页抓取索引别的链接
<meta name='robots' content='index,nofollow' />允许搜索引擎抓取本页,但是不许顺着本页抓取索引别的链接
<meta name='robots' content='noindex,nofollow' />禁止搜索引擎抓取本页,也不许顺着本页抓取索引别的链接。
<meta name='robots' content='noarchive' />禁止搜索引擎对网站建立快照
这里需要注意的是,不可把两个对立的反义词写到一起,例如
<meta name='robots' content='index,noindex' />
或者直接同时写上两句
<meta name='robots' content='index,follow' /> <meta name='robots' content='noindex,follow' />
这里有一个简便的写法,如果是
<meta name='robots' content='index,follow' />的形式的话,可以写成:
<meta name='robots' content='all' />如果是
<meta name='robots' content='noindex,nofollow' />的形式的话,可以写成:
<meta name='robots' content='none' />当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。禁止建立网页快照的命令是 noarchive,那么我们就可以写成如下的形式:
<meta name='robots' content='index,follow,noarchive">如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:
<meta name='Baiduspider' content='index,follow,noarchive">如果在元标记中不写关于蜘蛛的命令,那么默认的命令即为如下
<meta name='robots' content='index,follow,archive">注意,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空就可以了。