当前位置: 首页 > news >正文

robots.txt

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。More...

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写法

我们来看一个robots.txt范例:http://www.w3.org/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

#
# robots.txt for http://www.w3.org/
#
# $Id: robots.txt,v 1.48 2007/10/16 05:31:15 gerald Exp $
#

# For use by search.w3.org
User-agent: W3C-gsa
Disallow: /Out-Of-Date

User-agent: W3T_SE
Disallow: /Out-Of-Date

User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)
Disallow: /

# W3C Link checker
User-agent: W3C-checklink
Disallow:

# exclude some access-controlled areas
User-agent: *
Disallow: /2004/ontaria/basic
Disallow: /Team
Disallow: /Project
Disallow: /Web
Disallow: /Systems
Disallow: /History
Disallow: /Out-Of-Date
Disallow: /2002/02/mid
Disallow: /mid/
Disallow: /People/all/
Disallow: /RDF/Validator/ARPServlet
Disallow: /2003/03/Translations/byLanguage
Disallow: /2003/03/Translations/byTechnology
Disallow: /2005/11/Translations/Query
Disallow: /2003/glossary/subglossary/
#Disallow: /2005/06/blog/
#Disallow: /2001/07/pubrules-checker
#shouldnt get transparent proxies but will ml links of things like pubrules
Disallow: /2000/06/webdata/xslt
Disallow: /2000/09/webdata/xslt
Disallow: /2005/08/online_xslt/xslt
Disallow: /Bugs/
Disallow: /Search/Mail/Public/
Disallow: /2006/02/chartergen

以上文本表达的意思是允许所有的搜索机器人访问www.w3.org站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的a、b目录)

User-agent: *
Disallow: /a/
Disallow: /b/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

robot.txt http://wiki.mygogou.com/doc-view-815.html

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • java doubke类型转换为String_Java第一周笔记
  • Windows Embedded从入门到精通12月预告
  • 多个app用同一个签名文件_一文教你玩转幕布App
  • dskrdsk的区别
  • 联想杜比音效_联想锐龙入门本上市,强劲R5来了
  • 回忆Solaris_ 学习笔记1 [网络地址和掩码]
  • 边缘计算应用场景_边缘计算盒子有什么作用?博时特EC01 边缘计算盒子具体特征及应用场景来了...
  • 回忆Solaris_学习笔记2 [系统概念]
  • C# 动态 条件 组合_C# Win Form 记录集分页显示的实现
  • python 定义字符串变量_Python中什么是变量Python中定义字符串
  • 彪哥搞笑新闻
  • python爬虫登录网站_Python爬虫实例(四)网站模拟登陆
  • 东北大学校园小品,爆笑143次的,值得一看
  • python中类的定义方法_python中类的定义方法
  • infoq中文站 发布《Grails入门指南 》中文版
  • $translatePartialLoader加载失败及解决方式
  • CSS实用技巧
  • C学习-枚举(九)
  • golang中接口赋值与方法集
  • iOS筛选菜单、分段选择器、导航栏、悬浮窗、转场动画、启动视频等源码
  • JS函数式编程 数组部分风格 ES6版
  • JS字符串转数字方法总结
  • rabbitmq延迟消息示例
  • socket.io+express实现聊天室的思考(三)
  • uni-app项目数字滚动
  • Vue 2.3、2.4 知识点小结
  • 基于组件的设计工作流与界面抽象
  • ------- 计算机网络基础
  • 警报:线上事故之CountDownLatch的威力
  • 世界编程语言排行榜2008年06月(ActionScript 挺进20强)
  • 小程序、APP Store 需要的 SSL 证书是个什么东西?
  • 自制字幕遮挡器
  • #中国IT界的第一本漂流日记 传递IT正能量# 【分享得“IT漂友”勋章】
  • (13):Silverlight 2 数据与通信之WebRequest
  • (20)docke容器
  • (9)YOLO-Pose:使用对象关键点相似性损失增强多人姿态估计的增强版YOLO
  • (MonoGame从入门到放弃-1) MonoGame环境搭建
  • (Redis使用系列) Springboot 实现Redis 同数据源动态切换db 八
  • (笔试题)分解质因式
  • (初研) Sentence-embedding fine-tune notebook
  • (分享)一个图片添加水印的小demo的页面,可自定义样式
  • (文章复现)基于主从博弈的售电商多元零售套餐设计与多级市场购电策略
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • (转) 深度模型优化性能 调参
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转载)hibernate缓存
  • (轉貼) 資訊相關科系畢業的學生,未來會是什麼樣子?(Misc)
  • .env.development、.env.production、.env.staging
  • .NET的微型Web框架 Nancy
  • .NET正则基础之——正则委托
  • @Value获取值和@ConfigurationProperties获取值用法及比较(springboot)
  • [ Linux ] Linux信号概述 信号的产生
  • [ NOI 2001 ] 食物链
  • [5] CUDA线程调用与存储器架构
  • [8] CUDA之向量点乘和矩阵乘法