电网企业外网敏感信息筛查研究与实践

(整期优先)网络出版时间:2023-12-22
/ 2

电网企业外网敏感信息筛查研究与实践

赵岭 郭志达 张德安 杜瀚霖

南方电网广东惠州供电局 广东惠州 516001

摘要:在电网企业数字化转型过程中,随着信息系统数量增加、网络边界不断扩大,信息泄露问题不断出现并且原因多样化:项目建设环节保密执行不到位、第三方供应链爆出漏洞、私设互联网应用……。拓扑、帐密、源码、用户数据等敏感信息的泄露,极可能在不知不觉中导致网络安全防护体系出现突破口。本文分析了电网敏感信息泄露原因和途径,提出了一种敏密自动化筛查工具构建思路,助力形成高效排查处置流程,可有效解决人工排查校验耗时长、工作量大、准确率偏低的问题,极大提升工作效率和及时性,精准助力企业数据安全治理。

关键词:电网敏感信息;自动化筛查;数据安全

1 背景

1.1 敏感信息泄露原因

1.1.1 企业安全管理疏漏

企业员工在工作中将敏感数据文件放到互联网任何人均可访问的公共文档服务器上(例如在线网盘、Github等),造成敏感数据泄露。

1.1.2 数据库暴露在公网

存放敏感数据的数据库暴露在互联网上,并且数据库未进行严格访问控制、安全加密,甚至存在弱口令用户引发的数据外泄。

1.1.3 供应链泄露风险升级

合作公司未严格执行保密协议、黑客以供应商为跳板实施攻击等时有发生,供应链风险已成为网络安全事件的主因之一。

1.1.4 项目过程信息保密难度增大

信息化项目建设因周期长、沟通环节多、参与人员发生变动等原因,在需求沟通、系统测试、档案交付等环节存在拓扑、账密、源码、用户数据等敏感信息泄露到互联网的风险。

1.1.5 网络风险暴露面增多

随着电网终端设备、应用系统的种类与数量持续上升,网络空间更加庞大和复杂,信息泄露隐患点逐渐增多。

1.2 敏感信息泄露内容

1.2.1 客户敏感信息

电网企业客户敏感信息主要包括客户的身份住址、用电情况、电费账单等,一旦发生泄漏,可能会造成客户流失、遭受网络诈骗、遭受广告骚扰等问题。

1.2.2 业务敏感信息

电力企业的营销、人资、财务、资产、协同、综合等核心系统中存储着大量的业务敏感数据,如若发生盗用、泄露、篡改、删除等安全事件,不仅会对电力企业自身的业务、信誉和经济利益造成严重损害,甚至可能影响能源供应,导致社会恐慌,威胁国家安全。

2 外网敏感信息筛查

2.1  筛查思路

依托python技术构建机器人自动探测、系统智能研判的敏感信息全自动排查模式,对不同类别的网站平台进行关键字分类与搜索、代码搜查等,形成信息清单后,进行敏感度判断,最后将分析研判情况输出,在提升日常敏感信息排查工作效率、加强敏感信息排查力度的同时,可大幅提升发现及时性、减轻业务压力。


2.2  构建自动化筛查系统

2.2.1 探测机器人实现高效排查

以源代码托管平台、在线文库、云网盘等广泛应用的互联网公开资源为目标,基于python技术设计探测机器人,自动化筛查企业泄露在这些平台上的源代码、设计文档、网络拓扑、系统密码、商业合同、通讯录等企业敏感信息。同时可按需灵活弹性扩展扫描并发数,在短时间内完成对大量公网资产的核查。

以探测源代码托管平台举例,机器人首先查询代码中各种信息,自动化判断其logo、代码作者信息、所属公司、IP地址、关联的系统、API接口等关键信息是否匹配目标公司及其旗下相关单位来确定是否属于敏感信息所属范围。2.2.2 联动网络空间搜索引擎扩展感知面

网络空间搜索引擎的作用就是将互联网上公开的网络资产收集和整理,以此方便人们进行查阅和利用。通过网络空间搜索引擎,根据敏感特征结合关键词的方法在搜索框内进行搜索,我们可以快速的得到大量较高匹配度web应用信息。

机器人连接FOFA、微步等网络空间搜索引擎的功能接口,支持引擎网络空间测绘、企业资产匹配、威胁情报搜集等功能的快捷调用,以大数据联动敏感信息特征库实现动态监测,有效探测识别私设互联网应用、漏洞组件、高危端口等企业系统信息,增大敏感信息探测感知面。

2.2.3 机器学习迭代优化敏感信息特征库

整理局、所、站点、项目信息等存疑风险字段形成敏感词表,预定义正则表达式,对目标内容进行精确或模糊匹配,做出敏感数据及级别判定。同时引入NLP自然语言处理技术加中文近似词比对的方式增大识别准确率,以NLP对中文内容进行分词,通过中文近似词比对算法计算分词和敏感词的相似度,若相似度超过某个阈值,则认为内容符合敏感词所属的分类定级。考虑到敏感信息可能不仅仅是文本,还可能是图像或音频中的内容,如水印、图中的设计细节等,注重多模态学习,结合多种数据类型进行特征学习,迭代升级敏感信息特征库。

2.2.4 搭建敏感数据研判后台汇总分析情报

采用基于python语言的django框架搭建平台,统筹调度探测机器人的资源启停,汇总分析泄露信息的来源、去向、出现次数、敏感度并整合成筛查明细和风险评级报告,支持图表统计展示、报告在线阅览、明细清单导出和威胁情报预警,方便网络安全专家结合自身攻防经验做进一步研判,支撑敏感信息全自动排查模式高效运转。

2.2.5 创新插件式开发模式延长产品生命周期

创新插件式开发模式。针对不同资源目标进行探测机器人独立设计,封装为插件模组,实现外网敏感信息筛查系统插件式部署升级,自适应产品生命周期动态变化,有效解决新增目标开发难题、降低其带来的系统变动影响。

2.2.6 关注优化用户使用体验

多线程UI呈现,增强软件使用流畅性;简约UI设计,方便使用人员操作;轻量级数据,免部署单机安装,迁移部署快捷方便,降低非信息专业员工开展敏感信息排查的技术门槛,支撑敏感信息排查常态化、零门槛、多专业协同开展。

2.2.7 docker封装式系统部署方式

从docker虚拟化封装技术切入研究,探索内外分离、服务映射的系统搭建方式,减少物理机环境依赖,实现开箱即用的多平台便捷迁移、快速搭建效果。

2.3 运转流程

(1)根据专业目标设置爬取目标地址,实现自定义排查互联网范围。比如党建专业更倾向文库这一类平台,而信息项目则重点筛查GitHub等代码网站。

(2)导入关键字词,通过excel表格形式快速录入专业敏感词汇,系统将按照这些关键词和分类在网站开展检索。

(3)输出研判结果。首次排查内容将会与敏感信息数据库进行二次比对与分析,同时对敏感信息进一步分类分区域,判别与自己区域、专业的相关程度。

(4)展示本次敏感信息排查的明细,可以展示历史数据,支持快速筛选关键字分类,导出为excel表格进行进一步处理。

总结

根据公司要求大力加强敏感信息排查工作力度,一是要全面排查互联网应用,二是要排查私设互联网应用,三是清理互联网重要信息。在新的防护要求和新风险之下,加强内外网信息泄露的侦查力,消除安全隐患,开展常态化的敏感信息排查工作,确保电网的安全稳定运行势在必行。如何在加强敏感信息排查力度、提升敏感信息发现及时性的同时,减轻业务人员负担,并让非信息专业的员工也可以简便的开展敏感信息排查,形成一个系统的敏感信息排查流程,是本次研究出发点。

在新型电力系统建设背景下,海量设备接入、网络边界扩大带来的敏感信息泄露风险成为共性问题,本研究为解决这一问题,顺应企业数字化转型要求,通过自动化和智能化技术创新,提高样本检测质量,减少误报,有效地保护企业的敏感信息不被泄漏,避免因信息安全问题而导致的业务损失。