当前位置: 首页 > news >正文

我们的网站被狗爬了!

大家好,我是程序员鱼皮。

世风日下,人心不古。我们的程序员面试刷题网站 《面试鸭》 才刚刚上线了一个多月,就由于过于火爆,被不少同行和小人发起网络攻击。

而且因为我们已经有 4500 多道人工整理的企业高频面试题、100 多个各方向的面试题库、大厂面试官原创的优质题解,所以也招来了不少爬虫。

网站有爬虫是很正常的一件事,说明 “攻击者” 对我们网站内容的认可,而且自己学习用的话偷偷爬一爬咱也能理解。前提是别影响咱系统的正常运行、别被我们的监控系统发现。

我们确实发现了部分离谱的用户,不到一个小时就把我们几千道题看完了?你特么量子波动速读啊?!

上面这些其实都还好,系统自动就给封号了。但最近我们接到正义的用户反馈,最近有几只程序员博主公开 直播教别人 怎么爬我们的面试鸭网站,这属实是有点过分了吧?

有点儿法律常识的程序员应该都知道,爬虫是有法律风险的行为,可能会涉及到侵犯版权、违反网站的使用条款、侵犯隐私。而且如果请求频率过高,对系统造成了压力,还可能涉及到计算机系统破坏、违反计算机滥用法的法律风险!

所以才有了下面这个表情包:

在未经原站长授权的情况下,教别人去爬取别人的网站,这性质就更不一样了,而且还是直播去教,生怕别人不知道你是谁么? 可邢,太可邢了!

而且最让我生气的是,有些博主教爬虫都不教明白,教爬虫的第一课必然要先让大家了解 爬虫的法律合规性和法律风险 。应该告诉大家相关法律法规、遵守网站的使用协议和版权问题、遵守网站的 robots.txt 文件、确保爬取行为不侵犯他人的知识产权等等,而不是在诱导大家去爬取他人的网站。

这里鱼皮给大家列举下爬虫前的注意事项:

1)遵守网站的使用条款:仔细阅读网站的使用条款和服务协议,确定是否允许抓取和数据使用。有些网站可能明确禁止抓取或设定了抓取的条件,违反这些条款可能会导致法律问题。

2)遵守 robots.txt 文件:这个文件表示了网站对爬虫抓取的规则,某些页面如果明确标注了禁止抓取,建议不要下手。

比如我们面试鸭的 robots.txt 文件,第一行就是先禁用所有的爬虫,然后再给搜索引擎开放一些抓取。

3)不要抓取付费内容:一般付费内容都是申请了版权 / 著作权的,未经授权的抓取和传播可能涉及侵犯版权、会导致实际的赔偿。而且一般付费内容都是仅付费用户才能查看的,付费用户往往更好追溯到源头,千万别侥幸地以为别人查不到你!

4)控制好爬虫的频率:前面也提到了,如果你的爬虫请求频率过高,影响了网站的正常运行,那么性质就变成 “网络攻击” 了,后果往往更严重。而且一般情况下,网站都有反爬虫的防护措施,请求频率过高要么给你限流、要么直接封 IP、封账号,千万别以为是开玩笑。


总之,技术本身是无罪的,但用不好是真的会进局子的!大家直接在 面试鸭网站 或小程序上就能搜题、看题了,也没必要再专门用爬虫把题目搞下来了~

当然,如果大家要学爬虫的话,也许之后鱼皮可以出个项目。。。哈哈,有空再搞!

更多

💻 编程学习交流:编程导航
📃 简历快速制作:老鱼简历
✏️ 面试刷题神器:面试鸭

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • C语言之unsigned long long与指针相互转换实例(五十五)
  • 无名管道C语言
  • React native页面突然白屏
  • Mamba+Transformer完美融合,效果炸裂!
  • UE4 SLUA IOS打包报错解决办法
  • Python零基础入门教程
  • WSL和Windows建立TCP通信协议
  • 蓝桥杯 Python 研究生组-2023-省赛-分糖果-深度算法
  • 专业人士如何选?揭秘4款2024年常用的电脑录屏软件!
  • axure10的安装与使用教程,问题整理
  • 基于SpringBoot+Vue的健身俱乐部网站(带1w+文档)
  • 深入理解C语言中的枚举
  • 2024年让短片制作不再难,4款剪辑软件助你一臂之力!
  • 「码」上行动!一物一码+TPM让“多进货多卖货”不再是口号!
  • C/C++进阶 (8)哈希表(STL)
  • 【笔记】你不知道的JS读书笔记——Promise
  • ES6系列(二)变量的解构赋值
  • JavaScript 事件——“事件类型”中“HTML5事件”的注意要点
  • JS专题之继承
  • mysql中InnoDB引擎中页的概念
  • 阿里研究院入选中国企业智库系统影响力榜
  • 基于阿里云移动推送的移动应用推送模式最佳实践
  • 马上搞懂 GeoJSON
  • 软件开发学习的5大技巧,你知道吗?
  • 数组的操作
  • 移动互联网+智能运营体系搭建=你家有金矿啊!
  • 正则表达式
  • ​二进制运算符:(与运算)、|(或运算)、~(取反运算)、^(异或运算)、位移运算符​
  • # Redis 入门到精通(九)-- 主从复制(1)
  • # 飞书APP集成平台-数字化落地
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • #我与Java虚拟机的故事#连载04:一本让自己没面子的书
  • (¥1011)-(一千零一拾一元整)输出
  • (pycharm)安装python库函数Matplotlib步骤
  • (Pytorch框架)神经网络输出维度调试,做出我们自己的网络来!!(详细教程~)
  • (vue)el-tabs选中最后一项后更新数据后无法展开
  • (不用互三)AI绘画工具应该如何选择
  • (二)Kafka离线安装 - Zookeeper下载及安装
  • (附源码)python旅游推荐系统 毕业设计 250623
  • (黑马出品_高级篇_01)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (四)搭建容器云管理平台笔记—安装ETCD(不使用证书)
  • (一) springboot详细介绍
  • (一)为什么要选择C++
  • (转)LINQ之路
  • (转)setTimeout 和 setInterval 的区别
  • (转)Sublime Text3配置Lua运行环境
  • (转)大型网站架构演变和知识体系
  • (自用)gtest单元测试
  • ***测试-HTTP方法
  • .babyk勒索病毒解析:恶意更新如何威胁您的数据安全
  • .NET C# 使用 SetWindowsHookEx 监听鼠标或键盘消息以及此方法的坑
  • .net core 6 使用注解自动注入实例,无需构造注入 autowrite4net
  • .NET 跨平台图形库 SkiaSharp 基础应用
  • .net 设置默认首页