服务器 > 网络安全 > 企业安全

恶意爬虫防护 | 京东云技术团队

187人参与 2024-08-04 企业安全

引言

如果您仔细分析过任何一个网站的请求日志,您肯定会发现一些可疑的流量,那可能就是爬虫流量。根据imperva发布的《2023 imperva bad bot report》在2022年的所有互联网流量中,47.4%是爬虫流量。与2021年的42.3%相比,增长了5.1%。在这些爬虫流量中,30.2%是恶意爬虫,比2021年的27.7%增长了2.5%。

从国内外公开的数据中可以得出,恶意爬虫几乎出现在各个行业,无论是传统行业、泛互联网,还是政企、金融等,都各种程度遭受着爬虫的攻击,并且爬虫流量还在逐年增长。

大部分正常的爬虫可以帮助我们提高生产力,而恶意的爬虫不仅会造成数据泄漏还会影响正常用户体验。合适的反爬服务可识别恶意爬虫并拦截,京东云waf的bot管理提供了多种爬虫防护功能。

恶意爬虫的危害

爬虫(web crawler),又称网络爬虫、网络蜘蛛、网页蜘蛛,是一种自动化程序或脚本,用于在互联网上自动地获取网页内容,并从中提取信息。

爬虫分为合法爬虫和非法爬虫或恶意爬虫。合法爬虫是遵守网络道德和法律规定,以合法、合规和友好的方式运行的网络爬虫。这些爬虫在进行数据采集和信息获取时,遵循网站的robots.txt协议,尊重网站的隐私政策和使用条款,以及遵守相关的法律法规。合法爬虫的目的通常是为了收集网站上公开可见的信息,并且爬取的频率和速率是合理且可控的。这些爬虫的使用符合网站的访问规则,不会对网站造成严重的带宽压力或资源浪费。例如平时我们用的百度、必应等搜索引擎就离不开爬虫,搜索引擎爬虫每天会在网络上爬取大量的网页进行分析处理收收录,当用户通过关键词搜索时,就会按照一定的排序把相关的网页快照展现给用户。

恶意爬虫是一类不遵守网络道德和法律规定,以非法、破坏性或有害的方式运行的网络爬虫。这些爬虫通常不遵循网站的 robots.txt 协议、不尊重网站的隐私政策,以及不遵守网站的使用条款和服务协议。恶意爬虫的目的可能包括但不限于:

综上,恶意爬虫对网站和企业影响严重,轻则影响网站正常运行重则影响企业正常运营。因此,通过部署反爬服务阻止恶意爬虫请求,保护网站免受威胁非常重要。京东云waf bot管理提供了多种爬虫防护手段,可有效帮你应对各种爬虫。

恶意爬虫防护——京东云waf bot管理

京东云waf bot管理支持对爬虫程序进行甄别分类,并采取针对性的流量管理策略,例如,放行搜索引擎蜘蛛流量,对恶意爬取商品信息、秒杀价格、库存信息等核心数据进行阻断,还可以应对恶意机器人程序爬取带来的资源消耗、查询业务数据等问题。

京东云waf提供了常见爬虫ua库,提供11大类上百种商业爬虫防护,可快速高效拦截这类爬虫。

京东云waf提供了恶意ip惩罚,结合web攻击防护利用大数据算法,可及时识别并拦截恶意ip扫描行为,有效防护漏扫描、文件遍历等爬虫行为。

京东云waf反爬虫引擎利用算法和模型自动学习并分析网站请求流量,提供了宽松、正常、严格3种等级的防护模式,并支持配置配置观察、人机交互、拦截返回自定义页面等,可有效防护数据类爬虫和刷券类爬虫。

京东云waf提供了账户安全,通过提取请求中的账号和密码自动分析,可有效防护弱密码探测、暴力破解和撞库攻击。

京东云waf提供了idc威胁情报,可拦截云上有过恶意行为的ip访问;伪造蜘蛛情报,可拦截伪装成搜索引擎蜘蛛的爬虫请求。

京东云waf提供了伪造ua评分,可识别恶意爬虫伪装成浏览器的请求行为。

京东云waf提供了自定义bot规则,支持多种条件叠加、同时还可以叠加前端技术、叠加威胁情报,结合多维度频次统计,可灵活支持多种业务场景下的爬虫行为,为攻防对抗提供了可配性。

2023年h1,京东云waf帮助云上多个客户防护了上亿次爬虫攻击,攻击的峰值qps达到20w+/s。攻击的手段和目的也多种多样,有挂小区基站ip池的、有伪装成正常用户的、有常态化扫描探测的、有刷优惠券的、有刷特价商品的、有爬商品价格的。

前段时间云waf有个客户发优惠券,刚开始的时候刷子利用公有云的函数服务和云主机刷券,客户开启云waf的idc威胁情报轻松应对;刷子升级了策略使用了小区基站ip池伪装成chrome浏览器用户大量的请求优惠券接口,指导客户开启了反爬虫引擎并配置了自定义bot规则,平时的峰值qps只有2k,发券时候峰值qps打到了11w。5分钟进来1405w请求,云waf拦截了1401w。其中被反爬虫引擎识别了59%,被自定义bot规则拦截了38%,被威胁情报拦截了3%,识别并拦截恶意爬虫率达到99.7%。

总结

互联网上一半的流量来自于爬虫,如果您的网站没发现爬虫行为或者您的网站正遭受恶意爬虫攻击,那么您可以试试云waf的爬虫管理,不仅可以帮您发现爬虫行为还可以帮您防护爬虫攻击。详细可以参考:官网文档

 

(0)
打赏 微信扫一扫 微信扫一扫

您想发表意见!!点此发布评论

推荐阅读

记一次“有手就行”的从SQL注入到文件上传Getshell的简单过程

08-04

OSCS开源安全周报第 56 期:Apache Airflow Spark Provider 任意文件读取漏洞

08-04

OpenSSL 3.0.0 设计(一)|介绍、术语与架构

08-04

GOTC 2023 “开源安全”专题论坛议程曝光

08-04

公开比拼硬实力,华为众多议题入选 GOTC 2023

08-04

倒数计时,全球开源技术峰会 GOTC 要来了

08-04

猜你喜欢

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论