当前位置: 首页 > news >正文

应对反爬虫策略分享

经常做爬虫的同学都知道,很多网站会采取各种各样的措施来反爬虫,验证码就是其中的一种,比如当检测到访问频率过高时会弹出验证码让你输入,确认访问网站的不是机器人。但是随着爬虫技术的发展,验证码的花样也越来越多,从最开始简单的几个数字或字母构成的图形验证码发展到需要点击倒立人文字字母的,与文字相符合的图片点触型验证码,需要滑动到合适位置的极验滑动验证码,以及以计算题验证码等等,花样百出,让人头大。
图像验证码:这是最简单的一种,也很常见。就比如CSDN登录几次失败之后就会出验证码

解决思路:

  1. OCR二值化,去灰度,识别率低。
  2. 打码平台(超级鹰,云打码)
  3. 深度学习训练,成本高,适用范围小
  4. OpenCV,SimpleCV
    滑块验证码:需要按住滑块并移到正确的位置

解决思路:

  1. selenium
  2. 破解加密算法
  3. 深度学习训练,标注缺口,识别缺口
    点触验证码:需要识别图片中的文字或类型并按序点击

解决思路:

  1. OCR + 图像匹配(百度识图)
  2. 打码平台
    计算题验证码:需要给出正确答案

解决思路

  1. OCR
  2. 打码平台
    IP限制问题
    我们可以用最无赖也是最无解的代理ip来解决。直接通过切换访问的代理来突破,这里没有丝毫技术性含量。挂上代理后,去访问目标网站,根据返回的结果判断代理是否还有效。若是无效了,将当前查询目标回滚一次,并切换代理就行了。但是代理还是需要购买高质量的,在百度上搜一下,像亿牛云比较好的代理就会出来,并且亿牛云代理是最靠谱的,代理质量有保证,有强大的技术支持,满分的售货服务,对需要代理大的来说是首选。

相关文章:

  • 专利申请预审需要满足什么条件?
  • HTML5新特性 day_04(8.10)地图、文件上传
  • Junit5 + YAML 轻松实现参数化和数据驱动(一)
  • 用ARM进行汇编语言编程(1)介绍与寻址模式
  • PostwomanApi接口测试工具
  • 如何将数据输入神经网络,神经网络的数据处理
  • 数据结构-红黑树
  • 2022年下半年软考报名时间汇总,最新版!
  • Div4 思维总结
  • Docker面试题库
  • java毕业设计成品源码网站javaweb企业财务|记账|账单管理系统
  • 【mitmProxy】mitmProxy教程
  • [NOI2020统一省选 A] 组合数问题 (推式子)
  • 通过js 获取最近3天、1周、1个月、3个月、半年、1年的时间
  • LeaRun.Java工作流引擎 快速开发业务流程
  • SegmentFault for Android 3.0 发布
  • “大数据应用场景”之隔壁老王(连载四)
  • 【翻译】Mashape是如何管理15000个API和微服务的(三)
  • axios请求、和返回数据拦截,统一请求报错提示_012
  • docker容器内的网络抓包
  • express + mock 让前后台并行开发
  • fetch 从初识到应用
  • Java程序员幽默爆笑锦集
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • JS专题之继承
  • Mysql5.6主从复制
  • PHP变量
  • php的插入排序,通过双层for循环
  • React中的“虫洞”——Context
  • Spring思维导图,让Spring不再难懂(mvc篇)
  • Stream流与Lambda表达式(三) 静态工厂类Collectors
  • Vue UI框架库开发介绍
  • 闭包--闭包作用之保存(一)
  • 简单基于spring的redis配置(单机和集群模式)
  • 前端_面试
  • 巧用 TypeScript (一)
  • 小程序滚动组件,左边导航栏与右边内容联动效果实现
  • Oracle Portal 11g Diagnostics using Remote Diagnostic Agent (RDA) [ID 1059805.
  • 【运维趟坑回忆录】vpc迁移 - 吃螃蟹之路
  • 曜石科技宣布获得千万级天使轮投资,全方面布局电竞产业链 ...
  • ​ubuntu下安装kvm虚拟机
  • ​软考-高级-信息系统项目管理师教程 第四版【第19章-配置与变更管理-思维导图】​
  • #每天一道面试题# 什么是MySQL的回表查询
  • #预处理和函数的对比以及条件编译
  • $ is not function   和JQUERY 命名 冲突的解说 Jquer问题 (
  • $.ajax中的eval及dataType
  • (02)Hive SQL编译成MapReduce任务的过程
  • (11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (三)mysql_MYSQL(三)
  • (原创) cocos2dx使用Curl连接网络(客户端)
  • (转)jdk与jre的区别
  • (转)linux 命令大全
  • ***监测系统的构建(chkrootkit )