当前位置: 首页 > news >正文

阿里云爬虫风险管理产品商业化,为云端流量保驾护航

爬虫风险管理产品是阿里云云盾推出的新安全产品,1月底正式宣布商业化上线,提供可以覆盖Web/H5/API/APP多种业务形态的爬虫风险解决方案,对爬虫风险进行有序管理。

恶意爬虫引发高风险
随着传统行业互联网化及大类业务的数据化,使爬虫风险逐渐成为一个风险爆发点。有网络数据报告统计,目前互联网中超过60%的流量都是批量自动化的爬虫流量。

广义的爬虫并不是仅仅定义为“爬数据”,恶意的黑客利用一些自动化程序“爬虫”来进行业务攻击和欺诈,例如撞库、占座、抢票、刷排名、接口滥用、刷红包等,趋利特征非常明显。常见爬虫主要会集中在类似航空、电商、咨讯、数据、金融、旅行等一些存在高价值数据、原创内容、高获利点的行业中。
图片描述

恶意爬虫流量往往会引发企业一系列安全问题,并对业务造成一定利益损失,甚至请求量级过大也会同步造成服务器的不可用。

防爬任务困难重重
爬虫中也并不是完全都是恶意爬虫流量,有一部分友好的爬虫,例如搜索引擎爬虫、第三方合作伙伴程序、Robots 协议程序等。安全运维不但要区分出正常人请求和机器爬虫请求,还需要放行友好的爬虫,这会对爬虫识别检测精细度要求较高,并对不同类型的爬虫要有分类和标记。

难点其二在于业务渠道的多样性。行业的互联网化快速发展,尤其是移动端的兴起,一般客户业务中除基础的Web端外,移动端的H5/APP/小程序等也占据较大的业务流量。而爬虫往往攻击的是所有渠道中防护最薄弱及攻击成本最低的业务渠道,会持续在各渠道中切换尝试发现防护短板。如果防护方案比较单一,容易在对抗过程中产品顾此失彼的状态,最终防护失效,仍然造成业务影响。

持续对抗的过程中,爬虫也是会学习进化的,从最初简单自动化脚本会逐步演变成模拟正常用户的访问请求,模拟小区宽带IP,模拟页面浏览停顿操作,模拟正常业务流程路径等等,我们变得越来越难识别恶意爬虫。
图片描述
难但并不是没有办法。和爬虫的对抗就像一场博弈,我们利用云上生态的优势降低防护成本,提高识别检测的实时性和精准度,逼得爬虫用来伪装的成本高于爬虫的获利时自然会放弃。我们建立独立的检测系统和防护体系,围而不全杀;用AI智能模型识别爬虫,让爬虫难以察觉识别逻辑而减缓变异进度;用人机的验证手段,做第二层的引擎判断,更灵活的对识别结果做处置,进一步减少对正常用户的误报。

爬虫风险如何有序管理
爬虫风险管理产品是一款云盾推出的新安全产品。
图片描述

产品为SAAS模式,反向代理接入非常轻量和灵活,对七层流量做一次转发,通过云上综合的爬虫防护引擎识别并过滤爬虫流量,帮助客户降低恶意的自动化程序带来的业务影响。干净的业务流量会被继续转发到源站,保证业务正常运行。
图片描述

产品建设了一整套有层次的爬虫检测模块,主要分为基础防护层、云端情报层、机器学习层,进行信息传递和鉴别,从提供流量上自定义爬虫特征规则工具,到共享云端优势的行业爬虫攻击情报,再到定制贴合客户业务的机器学习算法,逐步递进,快速帮助客户打造一套量身定做的反爬虫策略体系。
图片描述

产品除了能快速甄别爬虫的行为特征,还可以实现对不同风险等级的爬虫识别结果做不同的处置,合法爬虫做放行,恶意爬虫做阻断,遇到可疑的爬虫去做一个挑战或者校验,多验一次身来做最终判断。

同时,产品内提供了数据可视化模块,从不同维度展示给用户,包括数据和数据之间的关联,让用户参与爬虫特征数据和防护数据之间关系的探索,不断沟通和迭代,不仅清晰地向用户展示爬虫入侵的每一步,也提高了用户反爬虫的策略决策能力。数据模块还集成了阿里云的SLS日志服务,可以查询和定位详细的日志内容,帮助用户了解防护情况和流量细节。
图片描述

当前产品防护场景主要集中在:
图片描述
产品优势突出
1、云端部署
云端有技术专家负责产品的规则更新,迅速解决实时风险。
云上资源是可以随时弹性扩容的,针对高峰业务能够自由收缩,帮助客户解决因大促等问题需要扩充机器而带来的成本。
云上的威胁情报资源非常丰富,能够发现针对行业的集中式攻击,并可以将情报应用在行业客户的防御系统中。
2、生态体系
跨多行业的爬虫行为分析,利用关系网络进行恶意爬虫的扩充发现。
爬虫业务目的非常明确,识别行业的集中式攻击,达成行业内共享风险防控。
沉淀网络上黑灰产的百万级已知针对性爬虫风险的IP/UA黑灰产数据。
共享亿级阿里系的设备端的风险情报。

据了解,目前国内外有不少做恶意爬虫流量管理的厂商,侧重点也不尽相同,但阿里云爬虫风险管理产品则是侧重于多层的防护,除了人机识别等检测方式,还会通过行为分析、威胁情报、机器学习算法等方式辅助检测,可以覆盖包括APP在内的各种环境,云上反向代理的方式接入也非常轻量和灵活。

相关文章:

  • 集群概念
  • 周末时间学习Linux
  • Brief introduction of how to 'Call, Apply and Bind'
  • CSS样式:覆盖规则
  • 猴子数据域名防封接口降低小说被封的风险
  • hadoop搭建之hive安装
  • 构造函数(constructor)与原型链(prototype)关系
  • css3省略……
  • ASP.NET MVC从视图传参到控制器的几种形式
  • Nginx 通过 Lua + Redis 实现动态封禁 IP
  • 前端性能优化--懒加载和预加载
  • 如何封装使用api形式调用的vue组件
  • 小白修神传~程序员成神之路
  • 26、springboot与消息
  • Javascript基础之Array数组API
  • ES2017异步函数现已正式可用
  • HTTP中的ETag在移动客户端的应用
  • IDEA常用插件整理
  • IOS评论框不贴底(ios12新bug)
  • Python学习笔记 字符串拼接
  • Python语法速览与机器学习开发环境搭建
  • Selenium实战教程系列(二)---元素定位
  • 类orAPI - 收藏集 - 掘金
  • 盘点那些不知名却常用的 Git 操作
  • 一个6年java程序员的工作感悟,写给还在迷茫的你
  • 一些关于Rust在2019年的思考
  • 用Canvas画一棵二叉树
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • 蚂蚁金服CTO程立:真正的技术革命才刚刚开始
  • ​插件化DPI在商用WIFI中的价值
  • #设计模式#4.6 Flyweight(享元) 对象结构型模式
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • (14)学习笔记:动手深度学习(Pytorch神经网络基础)
  • (4)(4.6) Triducer
  • (C语言)逆序输出字符串
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (七)微服务分布式云架构spring cloud - common-service 项目构建过程
  • (自适应手机端)响应式新闻博客知识类pbootcms网站模板 自媒体运营博客网站源码下载
  • .NET 服务 ServiceController
  • .net 托管代码与非托管代码
  • .NET 依赖注入和配置系统
  • .NetCore部署微服务(二)
  • .NET委托:一个关于C#的睡前故事
  • @ 代码随想录算法训练营第8周(C语言)|Day57(动态规划)
  • [20160902]rm -rf的惨案.txt
  • [AIR] NativeExtension在IOS下的开发实例 --- IOS项目的创建 (一)
  • [Angular] 笔记 7:模块
  • [BUUCTF NewStarCTF 2023 公开赛道] week4 crypto/pwn
  • [BZOJ 3282] Tree 【LCT】
  • [C#] 我的log4net使用手册
  • [EFI]MSI GF63 Thin 9SCXR电脑 Hackintosh 黑苹果efi引导文件
  • [FFmpeg学习]从视频中获取图片
  • [HITCON 2017]SSRFme perl语言的 GET open file 造成rce
  • [iOS]让Xcode 4.2生成的app支持老的iOS设备(armv6)
  • [jQuery]div滚动条回到最底部