数据分类分级概念、方法、标准及应用

数据已与土地、劳动力、资本、技术并列为先进生产力五大要素,是国家重要的基础性、战略性资源。如何开放数据共享、提升数据价值的同时保障数据生命周期安全与合规,是企业需要解决的重要问题。而对数据进行数据分类分级安全管理,是数据安全保护的重要措施之一。


01 数据分类分级概念及挑战


根据《GB/T 38667-2020 信息技术-大数据-数据分类指南》的定义,数据分类是根据数据的属性或特征,按照一定的原则和方法进行区分和归类,以便更好地管理和使用数据。数据分类不存在唯一的分类方式,会依据企业的管理目标、保护措施、分类维度等形成多种不同的分类体系。


数据分类是数据资产管理的第一步。不论是对数据资产进行编目、标准化,还是数据的确权、管理,或是提供数据资产服务,进行有效的数据分类都是其首要任务。数据分类更多是从业务角度或数据管理的方向考量的,包括行业维度、业务领域维度、数据来源维度、共享维度、数据开放维度等。同时,根据这些维度,将具有相同属性或特征的数据,按照一定的原则和方法进行归类。


数据分级则是按数据的重要性和影响程度区分等级,确保数据得到与其重要性和影响程度相适应的级别保护。影响对象一般是三类对象,分别是国家安全和社会公共利益、企业利益(包括业务影响、财务影响、声誉影响)、用户利益(用户财产、声誉、生活状态、生理和心理影响)。

企业建议选取影响程度中的最高影响等级为该数据对象的重要敏感程度。同时,数据定级可根据数据的变化进行升级或降级,例如包括数据内容发生变化、数据汇聚融合、国家或行业主管要求等情况引起的数据升降级。数据分级本质上就是数据敏感维度的数据分类。



任何时候,数据的定级都离不开数据的分类。因此,在数据安全治理或数据资产管理领域都是将数据的分类和分级放在一起,统称为数据分类分级。

目前分类分解存在的挑战有:

1. 复杂业务的分类分级标准与规则不好定义,行业标准对落地细则的指导不足。

2. 数据分类分级之后缺乏对应的有效管理和使用策略,让数据分类分级流于形式。

3. 部分业务数据不具备明显数据特证,通过规则自动识别准确率不高。特别是针对非结构化数据的分类分级识别困难较大。


02  国内已发布的数据分类分级相关标准


在开展分类分级工作时参考最多的标准有如下:


其他标准参考如各类地准、国标、行标:



03 企业数据分类分级实现


行业发布的数据分类分级标准可以为企业实施提供参考,但企业真正着手建立企业内部数据分类分级规范并不能完全照搬行业标准,行业标准的内容一般较为宏观,分类的颗粒度相对较粗,可能不能完全覆盖企业的主要数据类型。这就需要企业结合自身业务场景及行业实践来建立适合本业务特性的分类分级标准。


3.1 数据分类分级实施路径


在实际落地过程中,通常会把数据分类分级的实施路径总结成为五步:

第一步,咨询调研分析。基于行业相关的监管政策和标准规范,对业务系统、数据资产现状和数据安全现状等进行全面调研分析,从而对企业业务、数据及安全现状做到“心中有数”。

第二步,数据资产梳理。自动化识别数据资产,对数据资产进行梳理打标,构建好数据资产目录和数据资产清单,为企业数据分类分级打好基础。

第三步,数据分类方案。基于数据资产清单进行数据分类体系设计,完成数据分类打标实施。打标实施完之后,再进行分类分级规则调优,提升自动化分类的比例和准确率。

第四步,数据分级方案。先进行数据分级体系设计,接下来进行数据分级的规则调优,尽量提升自动化分级的覆盖率和准确率,降低人工成本,然后是数据等级变更维护机制和工具平台设置。

第五步,数据分类分级全景图。构建数据分类分级清单,实现数据分类分级可视化。同时产出一些数据分类分级运营机制,为数据安全分级保护打好基础,做好准备。


3.2 数据分类


数据分类是指根据数据的属性或特征,按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用数据的过程。

基于不同的数据属性或特征,对数据采用不同的分类视角,例如有数据管理视角、数据应用视角和国家行业组织视角。



从数据分类视角出发,结合数据分类方法对数据进行分类,把数据分类的方法分成三种,线分类法、面分类法和混合分类法。


线分类法旨在将分类对象按选定的若干个属性或特征,逐次分为若干层级,每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。


面分类法是将所选定的分类对象依据其本身的固有的各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。面分类法是并行化分类方式,同一层级可有多个分类维度。


混合分类法是将线分类法和面分类法组合使用,克服这两种基本方法的不足,得到更为合理的分类。混合分类法的特点是以其中一种分类方法为主,另一种做补充。适用于以一个分类维度划分大类、另一个分类维度划分小类的场景。


分类的维度可以有很多,包括数据的来源、内容和用途等,有时候可能是多维度的结合,例如,从个人信息的维度,将数据分为个人信息和非个人信息;从业务维度,分为财务数据、业务数据、经营数据等。数据分类示例:



3.3 数据分级


数据的分级一般是依据数据重要性和敏感度高低来划分的。《中华人民共和国数据安全法》要求,根据数据一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,将数据从低到高分成一般数据、重要数据、核心数据共三个级别,这是从国家数据安全角度给出的数据分级基本框架。


企业比较常用的分级规则是将一般数据的敏感/重要程度从低到高分为公开(1级)、秘密(2级)、机密(3级)、绝密(4级)四个级别,如下示例:



工业和电信领域企业,如涉及国家核心数据和重要数据的分类分级可参考《工业和信息化领域数据安全管理办法(试行)》中第七条至第十条要求。

以金融行业数据分级为例,金融行业数据等级一般分为五级:

- 五级数据指对国家安全造成影响,或对公众权益造成严重影响数据。

- 四级数据指对公众权益造成一般影响,或对个人隐私或企业合法权益造成严重影响,但不影响国家安全数据。例如个人健康生理信息、个人身份鉴别信息等。

- 三级数据指对公众权益造成轻微影响,或对个人隐私或企业合法权益造成一般影响,但不影响国家安全数据。例如比较常见的个人信息,姓名、身份证,联系方式等。

- 二级数据指对个人隐私或企业合法权益造成轻微影响,但不影响国家安全、公众权益数据。

- 一级数据指对个人隐私或企业合法权益不造成影响,或仅造成微弱影响,但不影响国家安全、公众权益数据。

数据分类类别,包括但不限于研发数据、生产运行数据、管理数据、运维数据、业务服务数据、个人信息等。

数据分级级别,按照国家有关规定,根据数据遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益等造成的危害程度,将数据分为一般数据、重要数据和核心数据三级。



分级原则如下:

合法合规原则:分级应遵循有关法律法规及部门规定要求,优先对国家或行业有专门管理要求的数据进行识别和管理,满足相应的数据安全管理要求。

就高从严原则:数据分级时采用就高不就低的原则进行定级,例如数据集包含多个级别的数据项,按照数据项的最高级别对数据集进行定级。

动态调整原则:数据的级别可能因为多个低敏感的数据聚合提高数据级别,也可能因为脱敏或者过期等原因降低数据级别。


完成数据资产的识别与分类分级定义后,需要制定并发布企业的《数据安全分类分级标准》及配套的安全要求,以在企业内统一规则及实施流程。安全标准重点是需要针对不同安全级别的数据采取差异化的安全策略,对高敏(机密、绝密级)数据进行重点管理,而公开和秘密级别的安全措施要适度。特殊业务场景下,可以通过对高敏数据进行脱敏、加密以及采用隐私计算等措施来降低数据管级,提高数据的内部流转,实现数据价值。


3.4 分类分级在业务中的应用


分类分级标准制定只是企业数据分类分级安全管理工作的起点。真正要落实数据分类分级安全要求,需要建立配套的实施流程与工具。确保在不同的业务场景中能够识别并标识出数据的分类与分级,并实施对应的安全措施,例如:在权限申请和数据分享的场景,不同级别的数据采用分级安全控制策略与审批流程;在安全事件处理场景,不同级别的数据的事件定级及响应处理流程有差异等等。


图1 数据分类分级应用实践案例


如上图数据处理全流程涉及的数据安全管控技术示例如下:

1. 数据源验证、合规评估、个人信息采集告知同意

2. 数据源验证、访问控制、传输加密、个人敏感信息内容加密

3. 数据使用审计、权限控制、数据脱敏、安全计算

4. 联邦学习、访问控制、数据访问审计

5. 访问控制、数据脱敏、特权管理

6. 数据脱敏、外发安全审计、API管控

7. 服务端数据存储加密、数据库访问控制、安全审计、分类分级

8. 敏感数据识别、数据分类分级

9. API安全监测、访问控制、安全审计

10. 数据脱敏、安全审计

11. WEB数据展示/下载管控/审计/脱敏

12. 动态脱敏、特权管理、安全审计、运维审计

13. 安全评估、保密协议、数据脱敏、加密传输

14. 数据分类分级、文件加密、数据防泄漏、远程办公安全


04  敏感数据的分类分级识别与打标


敏感数据的分类分级识别,不同企业做法有所不同。规模比较小的企业通过人工盘点的方式也能将基本数据识别完整。但大企业的数据量级很大,而且总是随着业务的变化持续在变,敏感数据的分类分级识别如果仅使用人工盘点的方式,目标不易实现。建立一套自动化数据识别与打标的能力显得尤为重要。


图表 2 数据分类分级打标及应用流程


4.1 建立敏感数据规则库


敏感数据规则库的建立是自动化识别的基础能力,规则库采用的技术包括关键字、正则表达式、基于文件属性识别、基于元数据信息的自定义识别、机器学习等。例如:

- 银行卡号、证件号、手机号,有明确的规则,可以根据正则表达式和算法匹配。

- 姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进行匹配。

- 营业执照、地址、图片等,没有明确规则,可以通过自然语言算法来识别,使用开源算法库。


4.2 数据扫描、识别与密级打标


通过对结构化/半结构化/非结构化数据扫描,自动发现敏感数据的类别、级别等属性信息及存储位置,形成数据资产图。自动化识别并打标的数据,按需进行人工的复核,以确定数据的密级。密级需要支持人工修改,通过流程控制密级的变更。更重要的是,数据的密级标签要同步到元数据、数据产品等,实现对密级的应用。


当然,数据分类分级只是数据安全工作中基础的环节,真正要做好数据安全管理,需要建立相对完整的安全管理与技术体系,才能有效落实数据的分类分级策略,保障数据的安全与合规。


05 数据分类分级保障措施及相关建议


数据分类分级是数据安全治理和数据管理的主要措施,是数据的安全合规使用的基础。数据分类分级不仅能够确保具有较低信任级别的用户无法访问敏感数据以保护重要的数据资产,也能够避免对不重要的数据采取不必要的安全措施。

人、安全体系、技术这三方面是数据安全治理三个方面:

数据安全治理蓝图


数据分类分级建设思路


5.1 数据分类分级保障条件-组织架构


数据分类分级工作的开展应具备组织保障,设立并明确有关部门(或组织)及其职责。


决策层:决策层负责制定企业数据战略、审批或授权,全面协调、指导和推进企业的数据分类分级工作。数据分类分级工作的领导组织及其负责人,主要负责数据分类分级相关审批、决策等工作;


管理层:决策层主要负责建立企业数据分类分级的完整体系,制定实施计划,统筹资源配置、建立数据分类分级常态化控制机制,组织评估数据分类分级工作的有效性和执行情况,制定并实施问责和激励机制。数据分类分级工作的管理部门(或组织)及其负责人,主要负责数据分类分级相关工作的组织、协调、管理、审核、评审等工作;


执行层:执行层在管理层的统筹安排下,根据数据分类分级相关制度规范的要求,具体执行各项工作。负责数据分类分级体系建设和运行机制,根据数据分类分级各职能域的管理要求承担具体工作。信息科技部门及其负责人,主要负责落实数据分类分级有关要求,并主导数据分类分级实施工作。

各业务部门是数据分类分级执行工作的责任主体,负责本业务领域的数据分类分级执行工作,管控业务数据源。确保数据被准确记录和及时维护,落实数据分类分级管控机制,执行监管数据相关工作。各业务部门及其负责人负责落实数据分类分级有关要求,并协同开展数据分类分级实施工作。


5.2 数据分类分级保障条件-制度规范


1)数据分类分级工作的开展应具备制度保障,企业应建立数据分类分级工作的相关制度,明确并落实相关工作要求,包括但不限于:

2)数据分类分级的目标和原则;

3)数据分类分级工作涉及的角色、部门及相关职责;

4)数据分类分级的方法和具体要求;

5)数据分类分级的日常管理流程和操作规程,以及分类分级结果的确定、评审、批准、发布和变更机制;

6)数据分类分级管理相关绩效考评和评价机制;

7)数据分类分级结果的发布、备案和管理的相关规定。


5.3 相关建议


1)站在集团层面做数据分类及下属企业两个层面;

2)不求大而全,实用为主。主数据、指标数据分类做实;

3)能在不同企业推广。物料、设备、指标框架等;

4)满足一个集团在不同层级人员的共享需求;

5)尽量多一些有影响力的成员单位加入团标。