当前位置: 首页 > news >正文

【公益案例展】中国电信安全大模型——锻造安全行业能量转化的高性能引擎...


b0f506ee4ad9989acb098a2f7f85d610.png

电信安全公益案例

本项目案例由电信安全投递并参与数据猿与上海大数据联盟联合推出的 #榜样的力量# 《2024中国数智产业最具社会责任感企业》榜单/奖项评选。

8b57034cc9f00b0fafb00bb39f58ba6e.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


以GPT系列为代表的大模型技术,展现了人工智能技术与应用的飞速进步。在网络安全领域,人工智能应用潜力巨大,亟待开发。过去十年,AI技术已逐步融入多种安全工具和产品,如显著提升识别率的AI垃圾邮件检测、在网络入侵检测中成效显著的深度学习网络等。然而,传统AI应用面临挑战:需大量人工标注数据,模型通用性差,不同问题需单独建模,阻碍了大规模应用。

针对此,我们正积极探索大模型在安全领域的应用,通过微调垂类安全大模型,聚焦解决安全运营中的攻防不对等、告警疲劳等痛点,旨在释放大模型潜力,使运营人员专注于高价值任务,实现自动化异常分析、自适应防御策略生成等,降低人工干预,突破运营效率瓶颈。

同时,随着大模型兴起,其安全问题也日益受到关注。国内外正积极探索大模型安全相关课题,旨在确保大模型在安全、可靠的环境中应用,并保障其自身安全。

时间周期:

开始时间:2023年6月

截止时间:至今

服务周期:2023年11月,发布见微安全大模型1.0;2024年5月,发布见微安全大模型2.0。

应用场景

在数字化转型加速的今天,企业面临的网络安全威胁日益复杂多变,传统的安全运营模式已难以满足高效、精准的安全防护需求。在大型企业的安全监控中心,每日可能接收到数以万计的安全告警信息,其中不乏大量误报、重复或低危告警,导致安全团队陷入“告警疲劳”的困境。“见微安全大模型”通过深度学习算法,对这些海量告警进行智能分析,自动识别并过滤无效告警,精准定位真正的高危、紧急事件。这一功能不仅减轻了安全人员的工作负担,还确保了关键安全事件能够得到及时响应和处理,有效防止潜在的安全风险转化为实际损失。

面对复杂多变的网络攻击手段,安全团队往往需要快速制定应对策略并调整防御体系。“见微安全大模型”作为运营助手,能够基于历史数据和实时威胁情报,为安全团队提供即时的问题解答和决策支持。无论是制定应急响应计划、优化安全策略,还是评估潜在威胁的严重性,大模型都能提供科学、合理的建议,助力企业构建更加坚固的安全防线。

为此,“见微安全大模型”应运而生,它深度融入企业安全运营体系,为多个关键应用场景提供强有力的支持,显著提升企业的安全防御能力和运营效率。

面临挑战

研究过程中遇到的主要瓶颈问题是数据集的选择和模型泛化能力提升。高质量的数据是训练有效安全模型的基础。在安全领域,获取大量的、标注准确的数据尤其困难,因为安全事件往往是罕见的,而且很难获得真实的攻击数据。此外,数据隐私和合规性问题也限制了数据的可用性。安全模型需要在不同的环境和场景中保持高效和准确。然而,模型可能会在特定数据集上表现良好,但在现实世界的多样化和动态变化的环境中表现为泛化能力不足。

我们针对数据集问题,主要依靠电信自有安全中台优势,汇聚生产场景化安全高质量数据集。同时,充分发挥运营商的优势,将万亿级的流量、域名、情报等准实时数据作为大模型的基础储备知识。在泛化能力方面,我们采用了数据增强、集成学习、多任务学习、交叉验证等多类方式,同时在数据集的选择上进行精心挑选,确保数据集覆盖足够的场景和变化,可以帮助模型学习到更泛化的特征。

技术开发过程

一、整体框架

“见微安全大模型”是电信安全公司依托多年累积的高质量的数据集和海量的安全知识库,以及对网络安全运营场景深入的理解,形成的安全垂类大模型,主要聚焦于安全领域安全告警疲劳、运营效率低下、安全专家稀缺三大痛点问题,着力为客户的安全运营流程中提供威胁告警的智能研判与降噪、安全运营辅助等能力,帮助客户自动识别和过滤大量的无效告警,只保留最关键、最有价值的安全事件,极大地减少了人工介入的需求,降低了运营成本,同时作为运营助手提供即时问题解答,帮助运营人员简化运营流程,提高运营效率。此外,见微大模型还具备强大的可扩展性和灵活性,能够适配各种复杂的安全环境和业务需求。

其总体技术架构如下:

a98b583cdc68c87ceac87e54551602f3.png

安全大模型从下往上可分为数据工程层-模型层-任务层-应用层:

数据工程层:提供数据的工程化处置能力,如数据清洗、标记、增强等。

模型层:专注于一系列微调方法和提示词工程的建设,处理威胁数据的高度动态性,确保相关业务的准确度。

任务层:负责执行基本任务。这些任务作为大模型提供应用的能力基础。

应用层:实际为监管平台或运营平台提供调用的大模型能力。

另外,算力基础层和数据源层位于安全大模型之下。算力基础层提供模型推理基础算力;数据源层支撑汇集各运营商云网数据、客户私域数据、以及三方的威胁情报等数据,同时结合相关的政策发文文件,投入模型,形成相应的知识库。

综上,算力基础与用户特色私域数据以及AI技术手段相结合,再经过模型学习和训练,得到更加贴合实际应用需求的垂类模型能力,为安全监管和安全运营提供辅助支撑能力。

二、能力研发创新点

1、数字生态地貌

能力介绍:数字生态地貌系统根据全自动化地帮助用户梳理企业公网暴露的节点,通过KCT理论实时计算地貌节点的重要度、健康度等指标,为企业呈现出其公网节点的网络安全数字生态地貌。

研发流程:通过在实时网络流量数据上结合AI+的能力,挖掘更新客户影子资产节点、高疑资产节点,并从节点重要度、健康度、相似度、关联度等不同数据特征角度构建客户的网络空间数字生态地貌,并以直观的3D地图引擎展示的方式,为客户全面、清晰、准确地勾勒还原公网暴露面全貌。

创新点:

1)AI增强的实时数据处理能力:系统利用人工智能技术结合数据,实现了对企业公网暴露节点的实时监测和分析。AI的能力使得系统能够以小时级或天级别的频率,快速挖掘和更新确认资产、影子资产和疑似资产节点,从而构建出动态变化的网络安全数字生态地貌。

2)不同结构的地貌构建算法:探索出不同类型节点地貌的通用构建方法(中心型,去中心型,分布式型);研发了基于多源信息的节点归属方法。

3)多种地貌节点的发现算法:通过对节点画像特征,行为特征,时序特征等多方面信息进行建模,结合DBScan、Louvain等方法对地貌节点进行发现与召回。

4)多维度数字生态评估:通过考虑节点的重要性、健康度、相似度、关联度和攻防难度等不同数据角度,系统能够全面评估网络空间中每个节点的状态和特性。这种多维度评估方法有助于深入理解网络资产的复杂性和相互依赖性,为网络安全管理提供了更为丰富和细致的视角。

5)先进的可视化技术:为客户呈现基于2D图模型的节点通联关系与基于3D实时地图引擎的地貌展示系统,将复杂的网络安全数据以直观、易于理解的方式展现出来。通过展示节点的重要度、健康度等多维度状态,和节点之间的互通关系和流量情况,使企业能够全盘掌握资产画像。

2、威胁研判

能力介绍:

大模型威胁研判支持对海量威胁告警进行自动化研判分析和降噪处理,威胁研判的类型包括但不限于payload、URL、pcap以及原始日志信息。通过大模型的自动化研判分析,可以帮助用户对威胁信息进行解读,去除误报发现真实的攻击,同时提供处置结论和方案辅助分析人员对告警事件进行快速处置,并能直接对接处置平台进行自动化处置。通过接入态势平台或第三方告警汇聚平台,实时获取告警数据,可以对海量的告警进行自动化降噪和智能化研判,同时将全方位的研判过程、精准的研判结果以及详细的处置建议反馈给客户,帮助客户更好地应对和处置。

2.1 告警研判

威胁研判支持对海量告警进行智能化研判,内容包括告警类型解读、上下文解读、报文解读,能结合解读结果对告警进行误报、正常业务授权、真实攻击等研判定性,同时提供大模型研判依据以及处置建议和方案。

2.2 告警降噪

告警降噪主要针对真实告警进行告警聚合和事件生成。大模型针对告警之间的时序关系、攻击链阶段构成、告警资产联系等告警之间的相关性,结合威胁情报后自动对告警进行聚合生成安全事件,将大量单独告警归并为具有明确上下文的安全事件,同时由大模型对安全事件进行研判并生成事件处理的优先级以及处置建议,让安全运营人员直接聚焦高质量安全事件。

3、大模型护栏

能力介绍:

从生成式人工智能服务全生命周期视角出发,打造大模型安全全链路解决方案,方案涵盖模型、业务系统等关键模块所面临的安全风险和挑战,提供相应的风险检测和安全防护能力,确保人工智能安全可信。打造多重核心算法,包括打造针对特定任务的语义风险检测模型、构造红线知识库,搭载策略配置引擎和代码审核模型,最终建立严格的输入输出防护机制,防止用户恶意输入和攻击。

创新点:

1)自动化攻击语料生成:构建了自动化攻击语料生成的框架,能够确保评测数据的多样性和覆盖范围;同时,我们定期从外部数据源收集相关的风险话题文本,通过不断更新和丰富话题文本,我们可以确保风险内容评测数据的时效性,确保风险检测的准确率和召回率。

2)多层级风险检测模型:采用先进的自然语言处理技术,结合上下文理解,识别隐喻和潜在不良信息。建立智能过滤系统,结合机器学习和专家规则,及时更新和优化过滤规则,提高监测的准确性和时效性。

应用效果/社会价值

人工智能技术迅猛发展的同时,也会带来诸如“AI换脸”、“AI变声”深度伪造等一系列安全风险。中国电信深谙生成式人工智能技术变革之深刻,在积极拥抱变革的同时,也要及时认识到变革过程中不可避免的风险。在此形势下,企业往往面临着更大的未知安全风险。中国电信加大研发力度,致力于改善人工智能技术使用过程中伴随的安全问题,通过将安全大模型融入企业的运营平台,将有助于企业贯彻落实《网络安全法》的要求,提高自身网络安全管理能力,降低网络安全隐患,从而帮助企业提升安全运营效率及安全服务质量。

中国电信践行作为央企的责任与担当,将安全大模型的应用聚焦以下三方面:

1、提升企业整体安全管理水平

开展以大模型为核心的面向不同场景的多维智能分析,形成安全分析中心、安全情报中心、策略指挥中心和安全态势展示中心,实时掌握网络安全态势,提升安全事件应急处置能力,提高重大活动保障能力,支撑安全监控部门开展网络安全工作,保障电信企业网络安全,建设整体的安全智慧型运营体系。

2、提升安全应急处置能力

结合大数据/AI分析能力,协助工作人员完成处理告警复杂的工作,确保重要的安全事件不被海量告警淹没。提供安全事件溯源、处置工作台等集中的安全事件管理和处置功能,提高安全运维人员工作效率。通过大模型的融入,对原始告警的压降率可达99%以上,研判准确率可达95%以上,整体运营项目可提升50%以上。

3、提升体系化纵深联动防御能力

通过结合安全运营领域的数据和算法优化,提升了模型的安全性和效率,以及在网络安全、威胁检测、情报分析等专业任务中的性能,优化安全威胁告警和预警输出的能力,提供准确而快速的安全告警和预警功能,建立基于高质量、多源威胁情报的交叉验证和关联分析,提升主动防御能力,从集团面向各省公司,实现安全隐患、预警信息的通报,推动重要紧急安全问题的快速响应和处置。

多措并举,中国电信安全大模型不仅能帮助企业提升应对安全事件的快速响应和高效处置能力,确保重大活动期间的网络稳定与安全,进而为企业赢得社会信任与尊重,展现了企业在维护国家安全、社会稳定方面的积极贡献。同时,通过与监管部门的紧密协同,及时共享安全信息,中国电信与行业一道共同推动行业安全标准的提升。

结合安全运营领域存在的痛点,中国电信认为大模型应用到安全领域,主要面临准确性、专业性和时效性三方面的难点问题,中国电信安全公司(天翼安全科技有限公司,简称:电信安全)当前的愿景是推出及持续运营一个安全领域的ImageNet——“阡陌数聚”(安全数据集),其提供统一平台,汇集行业专家,共筑安全语料,服务国家安全。电信安全旨在通过与业内伙伴一起解决数据难题,共同探索人工智能时代下的安全行业健康发展新理念、新思路。

关于企业

.电信安全

天翼安全科技有限公司(中国电信安全公司,简称“电信安全”)是中国电信集约开展网络安全业务的科技型、平台型专业公司,依靠中国电信云网资源禀赋,始终坚持以科技创新带动安全能力的全方位布局。作为中国电信建设安全型企业的主力军和骨干力量,电信安全承担中国电信网络安全关键核心技术创新的主体责任,是国家关于安全的重要科研力量。电信安全以研发运营一体化的方式,整合全集团云网、安全、数据等优势资源和能力,进行统一运营,为内外部客户提供云网安全、数据安全、信息安全等各类安全产品和服务。拳头产品云堤·抗D稳居行业第一。电信安全秉承“传承红色基因,守护安全中国”的使命,致力于成为数字时代最可靠的网络安全运营商。

点击文末左下角“阅读原文”链接还可查看“电信安全”官网

·中国电信股份有限公司四川分公司

中国电信股份有限公司四川分公司是中国电信股份有限公司在川设立的分公司,是我省主体电信企业和综合信息服务提供主导企业,也是四川省内事实上承担普遍电信服务、党政机要通信、国防通信、保密通信、应急通信等任务的唯一通信企业。

以上由电信安全投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的 #榜样的力量# 《2024中国数智产业最具社会责任感企业》榜单/奖项

该榜单最终将于7月24日北京举办的“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场:

8ada854d5af24e922368ae3a3488d427.jpeg

793ecaa7eb029959b6db7a2b58d2299a.png

6a0bdc719acaa212eca232561ff73254.png

523bf805556948dad8e60169813a7a71.jpeg

e0ed365d9bbe23e152c8b6beb5ec8fad.png

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • k8s核心操作_k8s中的存储抽象_基本概念与NFS搭建_Deployment使用NFS进行挂载---分布式云原生部署架构搭建028
  • 安卓14中Zygote初始化流程及源码分析
  • Redis的哨兵和集群实现高可用
  • 每天一个数据分析题(四百二十七)- 方差分析
  • debian 12 PXE Server 批量部署系统
  • Web开发 —— 放大镜效果(HTML、CSS、JavaScript)
  • DNSSec:网络安全的守护者
  • GIT相关操作,推送本地分支到远程仓库流程记录学习
  • C++ 数据结构探索:构建高效程序的基础
  • 在生产环境中部署Elasticsearch:最佳实践和故障排除技巧——聚合与搜索(三)
  • python库(10):SpaCy库实现NLP处理
  • 【面试题】Golang(第四篇)
  • json-server服务使用教程
  • kafka 常用命令
  • 某某会员小程序后端性能优化
  • [js高手之路]搞清楚面向对象,必须要理解对象在创建过程中的内存表示
  • 「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制
  • js数组之filter
  • Perseus-BERT——业内性能极致优化的BERT训练方案
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • vagrant 添加本地 box 安装 laravel homestead
  • vuex 学习笔记 01
  • 工程优化暨babel升级小记
  • 买一台 iPhone X,还是创建一家未来的独角兽?
  • 模型微调
  • 三栏布局总结
  • 腾讯视频格式如何转换成mp4 将下载的qlv文件转换成mp4的方法
  • 再次简单明了总结flex布局,一看就懂...
  • 怎么将电脑中的声音录制成WAV格式
  • nb
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • ​埃文科技受邀出席2024 “数据要素×”生态大会​
  • !$boo在php中什么意思,php前戏
  • (35)远程识别(又称无人机识别)(二)
  • (Java岗)秋招打卡!一本学历拿下美团、阿里、快手、米哈游offer
  • (pytorch进阶之路)CLIP模型 实现图像多模态检索任务
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (转载)(官方)UE4--图像编程----着色器开发
  • (转载)Linux网络编程入门
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • .Net MVC4 上传大文件,并保存表单
  • .Net 知识杂记
  • .net开发时的诡异问题,button的onclick事件无效
  • .net生成的类,跨工程调用显示注释
  • .Net下C#针对Excel开发控件汇总(ClosedXML,EPPlus,NPOI)
  • .project文件
  • /ThinkPHP/Library/Think/Storage/Driver/File.class.php  LINE: 48
  • /tmp目录下出现system-private文件夹解决方法
  • @data注解_一枚 架构师 也不会用的Lombok注解,相见恨晚
  • @JSONField或@JsonProperty注解使用
  • [android] 切换界面的通用处理
  • [Android]将私钥(.pk8)和公钥证书(.pem/.crt)合并成一个PKCS#12格式的密钥库文件
  • [BT]BUUCTF刷题第9天(3.27)
  • [C++][数据结构][跳表]详细讲解
  • [C++]Leetcode17电话号码的字母组合