湖北移动大数据平台安全管控实践

2020-09-08 15:48 中移大数据
点击蓝字 关注我们






一、项目背景







湖北移动在2014年度开始搭建省级数据中心,通过整合O域、B域、M域的数据形成标准化、开放式、集中化的大数据平台。截至目前,大数据平台集群规模超过2000+台服务器,数据总量达到30PB。大数据平台已经成为湖北公司重要的IT基础设施,目前是公司内数据最全面、敏感数据最多的IT系统。随着平台的开放以及应用推广,大数据平台已经直接开放给49个租户、1000余内外部技术人员、对接上下游60余个IT系统,导致目前大数据平台的整体安全风险越来越高,鉴于此,建立针对大数据平台的安全防护管控体系势在必行。







二、项目整体方案规划







大数据平台的三重防护体系:

目前湖北公司对大数据平台实施三重防护体系,具体如下:


第一级防护:主要是大数据平台系统准入准出,由传统4A、防火墙等相关系统负责;针对大数据领域,重点通过“数据网盘”等手段加强“数据人为携带场景”的准出管理。


第二级防护:重点聚焦在“平台数据访问安全”方面,实现大数据平台存储的数据,在数据流动的全流程内安全可控。通过“数据访问代理网关”技术方案,解决Hadoop技术本身存在的诸如访问认证缺乏强认证措施、数据访问没有权限控制、数据访问不留痕等问题。第二级的访问确保了数据在安全的环境中开放共享。


第三级防护:是大数据安全防护的最后一道关卡,在大数据域内对涉及用户隐私的敏感数据(重点是实名制相关的五元组信息)进行脱敏,确保在大数据平台内全是密文存储。通用场景下、大数据平台使用人员和普通应用场景,只能查看密文数据。经过严格审批之后,特定的人、特定的应用、特定的时间段内可以申请解密密钥,对数据解密使用,确保最核心的数据受到最严格的防护。








三、项目关键技术创新点



(一)第一重防护实施方案要点

1、传统安全手段适配

对于大数据平台的网络控制、主机账号管控等,是大数据平台最外围的传统安全手段,所有的主机必须通过4A系统进行登录访问。

2、企业网盘技术减少数据泄露、确保数据受控准入准出

数据已经是目前公司内部所有岗位生产经营的必备新能源,公司大部分的员工都需要拿到数据,以指导岗位生产,但又不能让各类数据随意通过邮件、飞信等不安全方式流转,为平衡合理使用与安全管理之间的冲突,湖北公司提出了“企业网盘”的解决方案。



(1)文件流转唯一通道:在4A安全域内,为每个用户创建独立的个人文件夹空间(网盘)。用户在大数据平台取得数据后,只能通过网盘进行上传、下载、删除等操作,确保数据不流出安全域。

(2)文件上传管控:用户上传文件到网盘时进行病毒和恶意脚本的检测,同时控制所上传文件格式。

(3)文件下载管控:对于需要下载到个人PC机的场景,下载动作经过金库审批后方可下载,特定级别敏感文件下载需要特定的权限审批。

(4)文件操作审计:对文件的上传、下载、分享、申请、审批有详细的日志记录,能够体现出文件全生命周期流转和操作过程。




(二)第二重防护实施方案要点

湖北公司在2017年度建设了基于代理模式的大数据BDS安全管控平台,BDS安全管控平台主要是以代理Hadoop各服务组件的端口的方式,承接前端应用和用户对于大数据平台的数据访问,进行访问入口的统一管控。

BDS安全管控平台以数据访问安全为目标,以企业内部人员和业务系统为管理对象;对湖北公司现有大数据平台已经接入的服务组件、人员帐号、资产设备、业务系统等进行全面安全管控。BDS安全管控平台通过事前“统一帐号管理、集中细粒度授权、访问控制策略”三方面的预防工作,事中“操作鉴权、金库管控、数据脱敏、敏感信息防护管控、组件监控”五方面的访问控制手段,以及事后“操作及日志、敏感数据访问轨迹”的审计手段,切实保障企业大数据平台的数据访问安全。

按照访问大数据平台的方式不同,我们将代理分为两种:

1、API访问代理

API访问代理是用户、应用访问大数据平台的必经之路,访问的认证、控制、鉴权、操作记录都由BDS来完成。避免了大数据平台的主机以及各类组件客户端的过度暴露。应用侧访问大数据平台时,需要将原先直连大数据平台的地址和端口指向BDS的代理地址和端口。目前BDS的API代理包括:HDFS、Hive、Hbase、Mapreduce、Spark以及WebUI等绝大部分Hadoop生态圈组件。

BDS的API访问代理的示意图如下:



API访问代理是实际向大数据平台Hadoop各组件发出操作请求的模块。主要解决了是如下安全场景。



应用对大数据平台各组件发起的所有操作均由BDS代理转发给实际Hadoop生态系统。代理会在执行前判断操作是否已被授权,若未授权则不会执行操作。同时,代理分析操作的内容是否包含敏感数据,如果包含敏感数据,将按即定的敏感数据访问策略对请求进行阻断或放行。

2、命令访问代理

在平台规模过于庞大,平台开放程度加大之后,对平台维护的监管难度和监管成本急剧增加。所以我们将用户对Hadoop相关组件的命令行操作也纳入代理管理:设置对哪些命令行进行代理,并设置黑名名单,避免高危命令操作。




(三)第三重防护实施方案要点

基于以上的第一和第二重防护,基本规范了大数据平台内通用数据的合法访问和消费场景。但为了进一步保护用户的个人隐私,湖北公司将大数据平台内部(含BOM域)涉及到个人信息的数据资产模型定义为敏感数据,专门增加了第三重特殊防护。第三重防护贯穿了敏感数据定义、数据识别、安全加固、多租户使用、敏感数据使用评估全生命流程。具体功能示意图如下:



1、数据加密与密钥管理的专利技术

引入全新的数据加解密技术,充分利用Hadoop计算平台的各种组件(Hive、Spark等)提供的二次开发接口来开发自定义的加解密函数,并结合自主开发的动态密钥算法来实现对敏感数据的加解密,这样也解决了传统加密方式下密钥容易泄漏而导致安全隐患的问题。

2、数据解密与管理流程

数据加密后,大数据平台内敏感数据全部处于加密状态,应用无法获取号码、姓名等关键字段的真实信息。但是,公司的生产经营中有部分场景是需要真实信息的,比如营销、客户标签查询、实名制证件判断等,我们针对特殊场景,制定不同的数据解密方案。






四、项目实施效果与推广







(一)大数据平台内敏感数据100%加密,个人隐私数据保护更彻底

大数据平台内部,涉及个人信息的所有数据已经全部加密完成。对于需要访问隐私字段信息的,实行“一事一议”原则,确保日志可查询,行为可追溯,操作可审计,全流程的管理更彻底。

(二)数据交换通道99%实现集中管控,数据开放更有序

通过实施大数据平台的数据访问代理后,数据访问和交换通道集中、访问权限集中,具备了数据采集、数据访问、数据使用全周期的安全防护手段。

(三)95%以上的数据在安全域内流转,数据外泄风险更低

通过大数据能力开放平台OpenApi+企业网盘的方式,大大收紧了敏感文件的外泄途径,常态化和临时性的数据交互都在安全域内。











往期推荐








中移大数据

致力于打造优质的大数据产品及服务,分享运营商大数据行业动态,信息共享,促进行业内合作交流


我知道你

在看

本文章转载自公众号:cmcc-bigdata

首页 - 大数据 相关的更多文章: