当前位置: 首页 > news >正文

robots协议

robots协议也就是robots.txt,网站使用robots.txt告诉搜索引擎,哪些网页可以被抓取,哪些 网页不能被抓取。

如果将网站视为酒店里的一个房间,而robots.txt就是房间的主人在房门上挂着“请勿打扰”或“欢迎打扫”,这样的提示牌。
robots.txt是搜索引擎访问站点看的第一个文件;如果存在,爬虫会按照robots.txt内容确定访问范围;如果不存在该文件,爬虫可对该站点的所有
没被保护的网页进行访问。

转载于:https://www.cnblogs.com/xjt927/archive/2012/10/17/2728733.html

相关文章:

  • 使用ManageEngine NetFlow Analyzer监控netflow
  • 一个超棒的帮助你了解科技公司如何盈利的网站 - rcs.seerinteractive.com
  • 选IDC需注意五点 服务器托管的综合优势
  • 英语还是很有用的
  • ORACLE数据库从11.2.0.1.0upgrade to 11.2.0.3.0
  • H264 I帧 P帧
  • centos关机与重启命令详解
  • ORACLE 10g 下载地址列表
  • Eclipse 4.2 性能遭开发者吐槽
  • 陶哲轩实分析 引理 7.1.13 证明
  • 基于异常的检测技术
  • 继续探究HTML与CSS:@import CSS影响网页性能 (转)
  • TABLESPACE 扩展,SYNONYM,EXP/IMP,EXPDP/IMPDP,ORA-39006,ORA-39213
  • hrbeu 哈工程 Minimum time
  • 每天一个linux命令(13):less 命令
  • [PHP内核探索]PHP中的哈希表
  • 【RocksDB】TransactionDB源码分析
  • ➹使用webpack配置多页面应用(MPA)
  • C++回声服务器_9-epoll边缘触发模式版本服务器
  • Golang-长连接-状态推送
  • Java 最常见的 200+ 面试题:面试必备
  • java第三方包学习之lombok
  • Phpstorm怎样批量删除空行?
  • vue数据传递--我有特殊的实现技巧
  • Wamp集成环境 添加PHP的新版本
  • 猴子数据域名防封接口降低小说被封的风险
  • 前端每日实战 2018 年 7 月份项目汇总(共 29 个项目)
  • 手写一个CommonJS打包工具(一)
  • 为视图添加丝滑的水波纹
  • 以太坊客户端Geth命令参数详解
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • 1.Ext JS 建立web开发工程
  • FaaS 的简单实践
  • $.extend({},旧的,新的);合并对象,后面的覆盖前面的
  • (+4)2.2UML建模图
  • (java版)排序算法----【冒泡,选择,插入,希尔,快速排序,归并排序,基数排序】超详细~~
  • (转)项目管理杂谈-我所期望的新人
  • (转载)跟我一起学习VIM - The Life Changing Editor
  • .bat文件调用java类的main方法
  • .NET I/O 学习笔记:对文件和目录进行解压缩操作
  • .Net Remoting(分离服务程序实现) - Part.3
  • .NET处理HTTP请求
  • .NET精简框架的“无法找到资源程序集”异常释疑
  • .Net下的签名与混淆
  • .NET项目中存在多个web.config文件时的加载顺序
  • @javax.ws.rs Webservice注解
  • @manytomany 保存后数据被删除_[Windows] 数据恢复软件RStudio v8.14.179675 便携特别版...
  • @SuppressWarnings注解
  • [202209]mysql8.0 双主集群搭建 亲测可用
  • [2024] 十大免费电脑数据恢复软件——轻松恢复电脑上已删除文件
  • [Android] Amazon 的 android 音视频开发文档
  • [bzoj1006]: [HNOI2008]神奇的国度(最大势算法)
  • [ExtJS5学习笔记]第三十节 sencha extjs 5表格gridpanel分组汇总
  • [hdu 1247]Hat’s Words [Trie 图]
  • [JavaEE] 线程与进程的区别详解