国家标准 GB/T37964一2019 信息安全技术个人信息去标识化指南 Informationsecuritytechnology Guideforde-identifyingpersonalinformaton 2019-08-30发布 2020-03-01实施国家市场监督管理总局发布币国国家标准化管理委员会国家标准
GB/T37964一2019 次目前言引言范围规范性引用文件术语和定义概述 4.1去标识化目标 4.2去标识化原则 4.3重标识风险去标识化影响 4.4 4.5 不同公开共享类型对去标识化的影哨去标识化过程 5.1概述 5.2确定目标 5.3识别标识 5.4处理标识 5.5验证审批 5.6监控审查角色职责与人员管理 6.1角色职责 6.2人员管理附录A资料性附录常用去标识化技术 10 附录B(资料性附录)常用去标识化模型 17 附录c(资料性附录)去标识化模型和技术的选择 24 附录D(资料性附录去标识化面临的挑战 29 参考文献 31
GB/37964一2019 前言本标准按照GB/T1.1一2009给出的规则起草请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别这些专利的责任本标准由全国信息安全标准化技术委员会(SAC/TC260)提出并归口本标准起草单位:清华大学、启明星辰展信息技术集团股份有限公司,浙江蚂蚁小微金融服务集团有限公司、阿里巴巴(北京)软件服务有限公司,北京奇安信科技有限公司、北京天融信网络安全技术有限公司、科学院软件研究所、软件评测中心、上海计算机软件技术开发中心、北京数字认证股份有限公司、西安电子科技大学、湖南科创信息技术股份有限公司、电子技术标准化研究院、陕西省信息化工程研究院本标准主要起草人;金涛,谢安明,陈星、白晓媛,郑新华、刘贤刚、陈文捷、刘玉岭、宋鹏举,赵亮宋玲娓、叶晓俊、王建民、方明、裴庆祺、潘正泰
GB/T37964一2019 引言在大数据、云计算、万物互联的时代,基于数据的应用日益广泛,同时也带来了巨大的个人信息安全问题为了保护个人信息安全,同时促进数据的共享使用,特制定个人信息去标识化指南标准本标准旨在借鉴国内外个人信息去标识化的最新研究成果,提炼业内当前通行的最佳实践,研究个人信息去标识化的目标,原则、技术、模型,过程和组织措施,提出能科学有效地抵御安全风险、符合信息化发展需要的个人信息去标识化指南本标准关注的待去标识化的数据集是微数据(以记录集合表示的数据集,逻辑上可通过表格形式表示) 去标识化不仅仅是对数据集中的直接标识符、准标识符进行删除或变换,可以结合后期应用场景考虑数据集被重标识的风险,从而选择恰当的去标识化模型和技术措施,并实施合适的效果评估对于不是微数据的数据集,可以转化为微数据进行处理,也可以参照本标准的目标、原则和方法进行处理例如针对表格数据,如果关于同一个人的记录有多条,则可将多条记录拼接成一条,从而形成微数据,其中同一个人的记录只有一条
GB/37964一2019 信息安全技术个人信息去标识化指南范围本标准描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施本标准针对微数据提供具体的个人信息去标识化指导,适用于组织开展个人信息去标识化工作,也适用于网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作规范性引用文件下列文件对于本文件的应用是必不可少的凡是注日期的引用文件,仅注日期的版本适用于本文件凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T250692010信息安全技术术语术语和定义 GB/T25069-2010界定的以及下列术语和定义适用于本文件 3.1 个人信息personalinformation 以电子或其他方式记录的能够单独或与其他信息结合识别特定自然人身份或反映特定自然人活动情况的各种信息 [GB/T352732017,定义3.1] 3.2 个人信息主体personaldatasubject 个人信息所标识的自然人 [[GB/T352732017,定义3.3] 3.3 去标识化dec-identifieationm 通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程 [GB/T35273一2017,定义3.14] 注:去除标识符与个人信息主体之间关联性 3.4 微数据microdata 个结构化数据集,其中每条(行)记录对应一个个人信息主体,记录中的每个字段(列)对应一个属性 3.5 聚合数据aggregatedata 表征一组个人信息主体的数据注例如各种统计值的集合
GB/T37964一2019 3.6 标识符identifier 微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别注标识符分为直接标识符和准标识符 3.7 直接标识符direetidentifier 微数据中的属性在特定环境下可以单独识别个人信息主体注1:特定环境指个人信息使用的具体场景例如,在一个具体的学校,通过学号可以直接识别出一个具体的学生注2常见的直接标识符有;姓名、身份证号,护照号,驾照号,地址,电子邮件地址、电话号码,传真号码,银行卡号码、车牌号码,车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符,生物识别码、互联网协议 IP)地址号和网络通用资源定位符(URLl.)等 3.8 准标识符quasiidentifier 微数据中的属性,结合其他属性可唯一识别个人信息主体注:常见的准标识符有:性别、出生日期或年龄、事件日期例如人院、手术、出院、访问、地点例如邮政编码、建筑名称,地区),族裔血统,出生国,语言,原住民身份,可见的少数民族地位,职业、,婚姻状况,受教育水平,上学年限、犯罪历史、总收人和宗教信仰等， 3.9 re-identifieation 重标识把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程 3.10 敏感属性sensitiveattribute 数据集中需要保护的属性,该属性值的泄露,修改,破坏或丢失会对个人产生损害注:在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联 3.11 有用性uIsefulness 数据对于应用有着具体含义、具有使用意义的特性注:去标识化数据应用广泛,每种应用将要求去标识化数据具有某些特性以达到应用目的,因此在去标识化后,需要保证对这些特性的保留 3.12 完全公开共享copletelypubiesharing 数据一旦发布,很难召回，一般通过互联网直接公开发布注:同英文术语TheReleaseandForgetModel 3.13 受控公开共享eontrolledpubliesharimg 通过数据使用协议对数据的使用进行约束注1，例如通过协议禁止信息接收方发起对数据集中个体的重标识攻击,禁止信息接收方关联到外部数据集或信息,禁止信息接收方未经许可其享数据集注2;同英文术语TheDtaUseAgreementModel 3.14 领地公开共享enelavepubiesharing 在物理或虚拟的领地范围内共享,数据不能流出到领地范围外注;同英文术语TheEnclaveMode.
GB/37964一2019 3.15 去标识化技术de-identifieationteehnique 降低数据集中信息和个人信息主体关联程度的技术注1，降低信息的区分度,使得信息不能对应到特定个人,更低的区分度是不能判定不同的信息是否对应到同一个个人,实践中往往要求一条信息可能对应到的人数超过一定阔值注2;断开和个人信息主体的关联,即将个人其他信息和标识信息分离 3.16 去标识化模型de-identifieationmode 应用去标识化技术并能计算重标识风险的方法概述 4.1去标识化目标去标识化目标包括对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或结合其他信 a 息识别出原始个人信息主体; 控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的 b 风险控制在可接受范围内.确保重标识风险不会随着新数据发布而增加.确保数据接收方之间的潜在串通不会增加重标识风险在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用) 4.2去标识化原则对数据集进行去标识化,应遵循以下原则合规;应满足我国法律、法规和标准规范对个人信息安全保护的有关规定,并持续跟进有关法 a 律法规和标准规范; b 个人信息安全保护优先;应根据业务目标和安全保护要求,对个人信息进行恰当的去标识化处理,在保护个人信息安全的前提下确保去标识化后的数据具有应用价值技术和管理相结合根据工作目标制定适当的策略,选择适当的模型和技术,综合利用技术管理两方面措施实现最佳效果包括设定具体的岗位,明确相应职责;对去标识化过程中形成的辅助信息例如苦钥跌射表等)果取有效的安全防护排随等充分应用软件工具:针对大规模数据集的去标识化工作,应考虑使用软件工具提高去标识化效率、保证有效性; 持续改进:在完成去标识化工作后应进行评估和定期重评估,对照工作目标,评估工作效果(包括重标识风险和有用性)与效率,持续改进方法、技术和工具并就相关工作进行文档记录 4.3重标识风险 4.3.1重标识方法常见的用于重标识的方法如下: 分离;将属于同一个个人信息主体的所有记录提取出来; a b 关联:将不同数据集中关于相同个人信息主体的信息联系起来推断;通过其他属性的值以一定概率判断出一个属性的值 c
GB/T37964一2019 4.3.2重标识攻击常见的重标识攻击包括: 重标识一条记录属于一个特定个人信息主体; a b)重标识一条特定记录的个人信息主体; c 尽可能多的将记录和其对应的个人信息主体关联; d 判定一个特定的个人信息主体在数据集中是否存在; 推断和一组其他属性关联的敏感属性 4.4去标识化影响对数据集进行去标识化会改变原始数据集,可能影响数据有用性业务应用使用去标识化后的数据集时应充分认识到这一点,并考虑数据集变化可能带来的影响 4.5不同公开共享类型对去标识化的影响在开展去标识化工作之前需要根据应用需求确定数据的公开共享类型,不同公开共享类型可能引发的重标识风险和对去标识化的要求如表1所示表1不同公开共享类型对去标识化的影响公开共享类型可能的重标识风险对去标识化的要求高高完全公开共享受控公开共享中中低领地公开共享低去标识化过程 5 5.1概述去标识化过程通常可分为确定目标,识别标识,处理标识以及验证审批等步骤,并在上述各步骤的实施过程中和完成后进行有效的监控和审查如图1所示确定目标识别标识处理标识验证审批去标识化过程图
GB/37964一2019 5.2确定目标 5.2.1概述确定目标步骤包括确定去标识化对象、建立去标识化目标和制定工作计划等内容 5.2.2确定去标识化对象确定去标识化对象,指确定需要去标识化的数据集范围,宜根据以下要素确定哪些数据属于去标识化对象 a 法规标准了解国家,地区或行业的相关政策、法律,法规和标准,待采集或发布数据是否涉及去标识化相关要求 b 组织策略了解数据是否属于组织列人的重要数据或敏感数据范哮,数据应用时是否存在去标识化的要求数据来源了解这些数据采集时是否做过去标识化相关承诺 d)业务背景了解数据来源相关信息系统的业务特性了解业务内容和业务流程披露数据是否涉及个人信息安全风险数据用途了解待发布数据的用途,是否存在个人信息安全风险 e fD 关联情况了解数据披露历史和去标识化历史情况,待披露数据是否和历史数据存在关联关系 5.2.3建立去标识化目标建立去标识化目标,具体包括确定重标识风险不可接受程度以及数据有用性最低要求需要考虑的因素包插数据用途了解数据去标识化后的用途,涉及业务系统的功能和特性,考虑数据去标识化的影 a 响,确定数据有用性的最低要求数据来源了解数据获取时的相关承诺,以及涉及哪些个人信息 b 公开共享类别若为数据发布实施个人信息去标识化需了解数据是完全公开共享,受控公开共享还是领地公开共享,以及对数据在浏览和使用方面的安全保护措施风险级别了解数据属性和业务特性.拟采用的重标识风险评估模型及设定的风险级别 d e 去标识化模型和技术了解数据适用的保护或去标识化标准,以及可能采用的去标识化模型和技术 5.2.4制定工作计划制定个人信息去标识化的实施计划,包括去标识化的目的、目标、数据对象、公开共享方式,实施团队,实施方案、利益相关方,应急措施以及进度安排等,形成去标识化实施计划书确定相关内容后,去标识化实施计划书应得到组织高级管理层的批准和支持 5.3识别标识 5.3.1概述识别标识符的方法包括查表识别法、规则判定法和人工分析法 5.3.2查表识别法查表识别法指预先建立元数据表格,存储标识符信息,在识别标识数据时,将待识别数据的各个属
GB/T37964一2019 性名称或字段名称,逐个与元数据表中记录进行比对,以此识别出标识数据建立的标识符元数据表,应包括标识符名称、含义、格式要求、常用数据类型,常用字段名字等内容查表识别法适用于数据集格式和属性已经明确的去标识化场景,如采用关系型数据库,在表结构中已经明确姓名、身份证号等标识符字段 5.3.3规则判定法规则判定法是指通过建立软件程序,分析数据集规律,从中自动发现标识数据组织可分析业务特点,总结可能涉及直接标识符和准标识符的数据格式和规律,确立相关标识符识别规则,然后通过运行程序,自动化地从数据集中识别出标识数据如可依据GB11643一1999建立身份证号码识别规则,并通过自动化程序在数据集中自动发现存在的身份证号码数据组织识别标识数据宜先采用查表识别法,并根据数据量大小和复杂情况,结合采用规则判定法规则判定法在某些情况下有助于发现查表识别法不能识别出的标识符,如标识符处于下面情况时业务系统存储数据时未采用常用的字段名称,如使用“备注”字段存储身份证号; a b)数据中存在混乱或错误情况,如“备注”字段前100条记录的值为空,而后10000条记录的值为用户身份证号码规则判定法不仅仅适用于结构化数据应用场景,也适用于某些半结构化和非结构化数据应用场景，如对于非结构化存储的司法判决书,可以通过建立身份证号识别规则和开发程序,从司法判决书中自动识别出所有的身份证号 5.3.4人工分析法人工分析法是通过人工发现和确定数据集中的直接标识符和准标识符组织可在对业务处理、数据集结构、相互依赖关系和对数据集之外可用数据等要素分析的基础上综合判断数据集重标识风险后,直接指定数据集中需要去标识化的直接标识符和准标识符人工分析法在结构化、半结构化和非结构化数据应用场景下都可使用在下列场景时,人工分析法具有明显的优势数据集中的多个不同数据子集之间存在关联、引用关系时,如通过数据挖掘算法,可关联分析 a 数据集中多个非常见标识符属性后识别出唯一的用户身份; 数据集中有特别含义的数据,或数据具有特殊值、容易引起注意的值,从而可能被用来重标识 b 时,如超出常人的身高、独特的地理坐标、罕见的病因等相比较于查表识别法和规则判定法,人工分析法能够更加准确地识别出标识符 5.4处理标识 5.4.1概述处理标识步骤分为预处理、选择模型技术、实施去标识化三个阶段工作 5.4.2预处理预处理是在对数据集正式实施去标识化前的准备过程一般地,预处理是对数据集施加某种变化使其有利于后期进行处理预处理阶段工作可参考如下方法进行形成规范化,或满足特定格式要求的数据 a b 对数据抽样,减小数据集的规模; 增加或扰乱数据,改变数据集的真实性 c
GB/37964一2019 组织应根据数据集的实际情况选择预处理措施,或选择不预处理 5.4.3选择模型技术不同类型的数据需要采用不同的去标识化技术,所以在去标识化的早期阶段,重要的一步是确定数据的类型和业务特性,考虑去标识化的影响,选择合适的去标识化模型和技术,在可接受的重标识风险范围内满足数据有用性的最低要求选择的参考因素包括但不限于如下方面: 是否需要对重标识风险进行量化; a 聚合数据是否够用; b 数据是否可删除; c d 是否需要保持唯一性; e 是否需要满足可逆性; 是否需要保持原有数据值顺序; 是青需要保持原有数据格式,如数据类型.长度等保持不变 g 是否需要保持统计特征,如平均值、总和值、最大值、最小值等 h 是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性; i 是否可以更改数据类型,例如在针对字符串类型的“性别”(男/女)进行去标识化时,是否可以变成数字类型表示(1/0); k)是否需要满足至少若干个属性值相同,以加强数据的不可区分性 D 是否可以对属性值实施随机噪声添加,对属性值做微小变化去标识化的成本约束 m 附录A和附录B分别给出了常见的去标识化技术和模型,针对这些技术和模型的特性以及选择方法可参考附录C,附录D给出了去标识化面临的风险 5.4.4实施去标识化根据选择的去标识化模型和技术,对数据集实施去标识化主要工作包括: 若存在多个需要去标识化的标识符,则根据数据特点和业务特性设定去标识化的顺序; a 依次选择相应的工具或程序; b 设置工具或程序的属性和参数,如设置数据源、用户名/口令、算法参数等; c d)依次执行去标识化工具或程序,获得结果数据集 5.5验证审批 5.5.1验证结果含义对数据集去标识化后进行验证,以确保生成的数据集在重标识风险和数据有用性方面都符合预设的目标在验证满足目标过程中,需对去标识化后重标识风险进行评估,计算出实际风险,与预期可接受风险闵值进行比较,若风险超出阔值,需继续进行调整直到满足要求由于重标识技术和重标识攻击的能力在迅速演变需要由内部专业人员或权威的外部组织定期展开验证评估 5.5.2验证个人信息安全验证去标识化数据满足个人信息安全保护要求的方法包括检查生成的数据文件,以确保文件数据或元数据中不包含直接标识符和准标识符 a b 检查生成的数据文件,以确保所得数据符合既定重标识风险要求评估去标识化软件及其参数配置 c
GB/T37964一2019 进行有针对性的人侵者测试,看看是否有具备合格能力的外部人员可以使用公开的数据集执 d 行重标识:; 让团队利用内部数据进行有针对性的人侵者测试,模拟违规者或敌对内幕人土可能发生的 e 情况这些方法不能保证去标识化后的数据满足个人信息安全保护的要求但它们可以作为整个组织风险评估的一部分可证明的个人信息安全保护应依赖于形式化方法,例如用于规划组织数据发布的差分隐私方法通过使用经过验证的去标识化软件,可以大大简化去标识化数据的个人信息安全保护的验证工作 5.5.3验证数据有用性去标识化降低了数据质量和生成数据集的有用性因此,需要考虑去标识化后的数据集对于预期的应用仍然有用 -些方法用于验证数据有用性例如,内部人员可对原始数据集和去标识化的数据集执行统存在一计计算,并对结果进行比较,以查看去标识化后是否导致不可接受的更改组织可让可信的外部人员检查去标识化数据集以确定数据能被用于预期目的 5.5.4审批去标识化工作在完成处理标识和验证结果后，组织管理层应依据数据发布共享用途、重标识风险、数据有用性最低要求等因素,以及验证结果、去标识化各步骤实施过程中的监控审查记录等因素,做出是否认可数据去标识化结果的决定审批由组织高级管理层来执行 5.6监控审查 5.6.1监控审查去标识化各步骤实施过程应确保去标识化的每一步骤均实现了预定目标在去标识化的各个步骤中,为有效完成去标识化任务,需在确定目标步骤撰写去标识化工作方案，明确各步骤要完成的工作,并在识别标识、处理标识、验证结果阶段记录工作过程和结果,形成文档组织管理层在去标识化的各个步骤完成时,对该阶段记录文档进行审查,检查输出文档是否齐全和内容完备,及时发现已经出现或可能出现的错误或偏差,并采取适当控制措施监督各步骤执行过程得到完整和有效地执行监控审查过程也应记录到文档中,记录内容至少包括监控审查对象、时间,过程、结果和措施等内容 5.6.2持续监控去标识化效果持续监控是指数据在去标识化、审批同意交付用户后,宜根据情况变化或定期进行去标识化数据的重标识风险评估,并与预期可接受风险阔值进行比较,以保障个人信息安全性情况发生变化是指重标识风险的相关要素发生变化相关要素包括但不限于 a 去标识化数据使用者; b 目标信息系统; 目标信息安全环境; c d 新增去标识化数据此外,即使各种要素均未发生变化,只要去标识化数据仍然可以被目标用户访问,也需定期对数据
GB/37964一2019 进行重标识风险评估这是由于重标识技术以及重标识攻击能力都在迅速演变,所以要通过重标识风险评估,检查先前的去标识化数据是否仍然安全角色职责与人员管理 6.1角色职责个人信息去标识化工作相关的主要角色包括规划管理者、执行者、监督者规划管理者在组织中,规划管理者对个人信息去标识化工作负总责,具体职责包括:规划个人信息去标识化策略,建立相关的规范制度和监控审计机制,宣贯去标识化政策和制度,认可和批准去标识化工作的结果,和上级主管部门、监管机构进行沟通,与外部技术单位进行合作和交流 b)执行者执行者负责去标识化业务的具体执行，主要职责包括;依据数据共享场景,提出个人信息去标识化需求;识别个人信息安全风险,制定去标识化工作计划;执行去标识化工作,记录工作情况;申请审批去标识化结果监督者监督者的主要职责是监督去标识化工作情况、审计该业务执行过程,保证业务合规,安全风险可控 6.2人员管理组织应整体规划个人信息去标识化有关的工作任务和职责,做到有效保护个人信息安全、确保个人信息去标识化工作顺利开展在人员管理方面还应考虑如下因素提炼个人信息去标识化工作岗位需求,包括技术能力需求和安全保密需求; a b)个人信息去标识化工作岗位招聘时应按照相关法律,法规,道德规范和相应的工作岗位需求对应聘人员进行考察; 与个人信息去标识化工作岗位人员工作合同或补充文档中,应明确其理解工作职责和要承担的安全保密要求; 组织应定期开展业务和安全培训,确保个人信息去标识化工作岗位人员接受充分和最新的培训保证岗位人员达到培训要求,持续拥有适当的技能,能够按要求执行个人信息去标识化的相关工作个人信息去标识化工作岗位人员离职时,应依据其涉及数据重要程度,在离职保密协议中增加适当的保密要求条款
GB/T37964一2019 附录 A 资料性附录) 常用去标识化技术统计技术 A.1 A.1.1概述统计技术是一种对数据集进行去标识化或提升去标识化技术有效性的常用方法,主要包含数据抽样和数据聚合两种技术 A.1.2数据抽样数据抽样是通过选取数据集中有代表性的子集来对原始数据集进行分析和评估的,它是提升去标识化技术有效性的重要方法对数据抽样技术选择和使用应注意以下几个方面从数据集中抽取样本的方法很多,各方法差异很大,需根据数据集的特点和预期的使用场景来 a 选择 b 数据抽样经常用于去标识化的预处理,对数据集进行随机抽样能够增加识别出特定个人信息主体的不确定性,从而可以提高后续应用的其他去标识化技术的有效性数据抽样可以简化对数据集的计算量,因此,在对大样本的数据集进行去标识化时,首先进行抽样,然后再采用某项特定的技术进行去标识化例如:某市从1000万市民中随机抽取1万人的4项信息(性别学历、籍贯、身高) 如果攻击者发现市民A的情况完全符合记录甲(男,本科,北京,1.75m),攻击者并不能确定记录甲就是指市民A,因为A并不一定在此抽样数据集中 A.1.3数据聚合数据聚合作为一系列统计技术(如求和、计数、平均、最大值与最小值)的集合,应用于微数据中的属性时,产生的结果能够代表原始数据集中的所有记录对数据抽样技术选择和使用应注意以下几个方面数据聚合可能会降低数据的有用性;因为得到的是统计值,无法反映独立数据记录的特征 a) b)数据聚合对重标识攻击非常有效;数据聚合的输出是“统计值",该值有利于对数据进行整体报告或分析,而不会披露任何个体记录例如:2年我国18岁及以上成年男性平均身高L.7m 如果数据集以早均身高来标识数据集中每个人的身高值,则记录(男,本科,北京,1.67m,1980年9月1日)中,身高属性值对攻击者识别身份主体没有什么作用 A.2密码技术 A.2.1概述本节描述适用于去标识化的密码技术使用密码技术应遵循国家密码管理相关规定 10
GB/37964一2019 A.2.2确定性加密确定性加密是一种非随机加密方法在去标识化过程中应用时,可以用确定性加密结果替代微数据中的标识符值对确定性加密技术的选择和使用应注意以下几个方面确定性加密可以保证数据真实可用,即相同的两个数据用同一密钥进行加密将产生两个一样 a 的密文 b 确定性加密可以一定程度上保证数据在统计处理、隐私防挖掘方面的有用性,确定性加密也可以生成用于精准匹配搜索、数据关联及分析的微数据对确定性加密结果的分析局限于检查数据值是否相等对确定性加密的重标识攻击主要在于不具备密钥使用权时的攻击;关联性攻击则可能适用于采用同一密钥进行确定性加密的密文,攻击能否成功很大程度上取决于对加密算法参数的选择 A.2.3保序加密保序加密是一种非随机加密方法用作去标识化技术时,可以用保序加密值替代微数据中的标识符值对保序加密技术选择和使用应注意以下几个方面密文的排序与明文的排序相同 a b)保序加密可以在有限的范围内保证加密结果在统计处理、隐私防挖掘、数据外包存储与处理等场景中的有用性保序加密可以产生用于范围/区间匹配搜索、分析的微数据对保序加密结果的分析局限于检查数据相等和排序比较关系保序加密数据的完全重标识仅可能适用于拥有密钥的一方关联性攻击能否成功很大程度上取决于保序加密方案的参数选择 A.2.4保留格式加密保留格式加密是一种适宜于去标识化技术的加密方法,加密要求密文与明文具有相同的格式,当作为去标识化技术的一部分加以采用时,可用保留格式加密值替代微数据中的标识符值对保留格式加密技术的选择和使用应注意以下几个方面某些保留格式加密具有确定性加密技术一样的特点,如相同数据在同一密钥下加密生成同样 a 的密文,且可以通过生成微数据进行精准匹配搜索、数据关联分析等保留格式加密适用于多种格式的数据,包括字符型、数字型、二进制等,加密结果也是同类型 b 数据和其他加密技术不一样,在给定有限符号集的情况下,保留格式加密可以保证加密后的数据具有与原始数据相同的格式和长度,这有助于在不需要应用修改的情况下,实现去标识化 A.2.5同态加密同态加密是一种随机加密当作为去标识化技术的一部分加以采用时,对加密数据进行处理,但是处理过程不会泄露任何原始内容同时,拥有密钥的用户对处理过的数据进行解密后,得到的正好是处理后的结果同态加密用加密值替代微数据中的标识符值对同态加密技术的选择和使用应注意以下儿个方面 a 对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的 1
GB/T37964一2019 b 与传统的确定性加密方案相比,同态加密的性能一般较低,存储成本较高 c 同态加密方案具有语义上的安全性,使得在不具备访问私钥权限时无法实现重标识攻击 A.2.6同态秘密共享同态秘密共享可将一个秘密拆分为“若干份额”,可利用拆分后秘密信息的特定子集来重构原始的秘密,如果对用于重构秘密的所有份额执行相同的数学运算,则其结果等价于在原始秘密上执行相应数学运算的结果当作为去标识化技术的一部分加以采用时,同态秘密共享可用信息共享算法得出的两个或以上若干份额替代数据记录中的任何标识符或敏感属性这样,便可将这些若干份额分配给两个或以上的份额持有者这些份额持有者的数量通过秘密共享方案加以确定有效的同态秘密共享的特性是,相同份额持有者共享机密的两个值可与加密方案的同态运算相结合,产生代表原始属性运算结果的新份额此外,同态密钥共享可与安全的多方计算相结合,以便对去标识化数据进行任何安全运算同态密钥共享并不会降低数据的真实性虽然同态密钥共享有着相对低的计算性能开销,但存在与份额持有者之间交换份额的额外开销共享秘密数据的存储开销是有限的基于安全多方计算执行的数据去标识化的处理技术是灵活的,但根据所采用的不同方案,可能会导致高昂的成本同态密钥共享会产生微数据的分布式实例,该类实例可被同态运算或安全多方计算技术处理同态加密方案是随机的,攻击者只有控制所有份额持有者才能实现重标识攻击 A.3抑制技术 A.3.1概述抑制技术即对不满足隐私保护的数据项删除,不进行发布包括从所有记录中选定的属性(如屏蔽)、对所选定的属性值(例如,局部抑制),或是从数据集中选定的记录(例如,记录抑制)进行的删除操作抑制技术主要适用于分类数据抑制技术可用于防止基于关联规则推导的攻击,因为不发布能最大化降低关联规则支持度和置信度的属性值,从而破坏关联规则推导攻击抑制技术适用于数值与非数值数据属性,执行相对比较容易,且可以保持数据的真实性 A.3.2屏蔽屏蔽技术包括从数据集中删除整个直接标识符,或删除直接标识符的一部分,使其不再是直接标识符也不是唯一标识符使用屏蔽技术后,通常还会对数据集使用其他去标识化技术在将屏蔽技术作为唯一的去标识化技术的系统中,应采取安全措施和组织其他的管理措施去保护未被识别的数据屏蔽技术也有其他- 一些叫法,如: 部分数据移除:指在屏蔽过程中不会删除所有标识符 a b) 数据隔离:指屏蔽需要有严格的安全措施,以确保对数据集的授权访问,如访问控制和相应的合约条款数据限制;指在有特定目的的环境中收集数据时进行数据抑制的情况 A.3.3局部抑制局部抑制技术是一种去标识化技术,即从所选记录中删除特定属性值,该特定属性值与其他标识符结合使用可能识别出相关个人信息主体通常应用局部抑制技术来移除准标识符在泛化后仍然出现的 12
GB/37964一2019 稀有值(或这些值的稀有组合) 局部抑制技术应用于分类值,而泛化通常应用于数值,其共同目标是增加共享其标识符值的记录数 A.3.4记录抑制 “记录抑制”是一种从数据集中删除整个记录或一些记录的去标识化技术典型应用场景为删除包含稀有属性(如异常值)组合的记录 A.3.5注意事项抑制技术会导致信息丢失,抑制技术处理后的数据有被重标识的风险,因此需要与其他去标识化技术相结合以降低数据的重标识风险过多的抑制会影响数据的效用,所以在具体应用时,为保证数据的可用性,要对抑制的数据项数量设定一个上限值 A.3.6示例在某个具体应用中,需要对某组织的不同工作年限的薪资水平进行分析,原始数据集包括姓名,性别,薪水,工作年限,职务},采用如下步骤进行去标识化姓名是直接标识符,需要应用抑制技术删除;通过〈职务，工作年限)或职务,性别}也可以推导 a 出该组织中的一部分员工.,因此应用抑制技术删除职务属性剩下的《性别,薪水,工作年限),有被重标识的风险,需要结合泛化技术,对“薪水”“工作年限" b 属性值进行泛化处理,如薪水泛化为5000~10000,l0000~15000,15000~20000等,工作年限泛化为03年、46年等; 如果数据记录中只有1人工作年限为0一3年,薪水为1500020000,则能够定位到某个员工 ,应用抑制技术删除该条记录 A.4假名化技术 A.4.1概述假名化技术是一种使用假名替换直接标识(或其他准标识符)的去标识化技术假名化技术为每一个人信息主体创建唯一的标识符,以取代原来的直接标识或准标识符不同数据集中的相关记录在进行假名化处理后依然可以进行关联,并且不会泄露个人信息主体的身份在使用假名化技术的过程中,通常会使用一些辅助信息这些辅助信息包括从原始数据集中删除的标识符、假名分配表或密钥等,采取必要的措施来保护这些辅助信息有利于降低重标识风险假名创建技术主要包括独立于标识符的假名创建技术和基于密码技术的标识符派生假名创建技术假名创建技术的选择需要考虑以下因素:创建假名的成本、散列函数的抗碰撞能力以及重标识过程中假名被还原的手段独立于标识符的假名创建技术不依赖于被替代的属性原始值,而是独立生成,典型方法为用随机值代替属性原始值基于密码技术的标识符派生假名创建技术通过对属性值采用加密或散列等密码技术生成假名,这一过程也称为对数据集中的属性进行“密钥编码” 其中加密技术生成的假名可以用合适的密钥及对应的算法解密,而散列技术是一种单向的数学运算 A.4.2独立于标识符的假名创建独立于标识符的假名创建技术不依赖于被替代的属性原始值,而是独立生成,典型方法为用随机值 13
GB/T37964一2019 代替属性原始值使用该类技术时需创建假名与原始标识的分配表根据去标识化的目标,应采取适当的技术与管理措施限制和控制对该分配表的访问例如,使用去标识化后数据的应用系统禁止访问分配表 A.4.3基于密码技术的标识符派生假名创建基于密码技术的标识符派生假名创建技术通过对属性值采用加密或散列等密码技术生成假名,这 -过程也称为对数据集中的属性进行“密钥编码” 其中加密技术生成的假名可以用合适的密钥及对应的算法解密,而散列技术是一种单向的数学运算采用多种密码技术的组合可更好地保护属性原始值采用加密方法来创建假名的计算成本很高,但非常有效应采取特殊措施来保护密钥,防止密钥被未授权访问,包括密钥与数据分离,不与第三方共享密钥,安全地删除密钥以防重标识等散列丽数的单向运算及抗碰撞能力等特性,使其适用于假名化过程但是,当散列算法和所用密钥是已知的,且有可能遍历散列函数生成数值空间时,散列函数是可逆的因此使用密钥散列函数时可增加另一随机输人,增强其对抗暴力搜索攻击的能力,防止未经授权的重标识即使采用了安全的散列技术,如果在使用或执行散列算法中发生了疏忽,或未经授权共享密钥,均可能导致数据的重标识 A.4.4注意事项如果采用恰当的方式构建假名与原始标识的分配表,并能对分配表和分配技术加以保护,则能够有效地降低数据的重标识风险采用多个原始标识符对应一个假名的分配表比采用-一对应的分配表能够更加有效降低重标识风险加密技术通常是一一对应的分配技术;散列技术由于碰撞性的存在,通常是多对一的分配技术;采用纯随机的方式构建分配表通常也是多对一的采用多个原始标识符对应一个假名的分配表方法和分配技术,会导致在以标识符为统计对象的数据分析结果失真,从而降低数据的有用性加密技术能够还原标识符,在需要还原原始标识符的情况下采用该技术 A.4.5示例在某个具体的应用中,需要从外部某数撼库中抽取包含人名的有效数据以供分析,呆用如下步骤进行去标识化构建常用人名字典表 a 常用人名字典表有200个常用人名构成:龚小虹、黄益洪、龙家锐、龚尧莞、齐新燕、车少飞、龙家铸、赖鸿华,龙宣霖,连丽英" . " 制定人名与假名的分配技术 b 分配技术采用纯随机方式,对于每一个标识符(人名),随机生成一个不小于1并且不大于200 的随机数,从字典表中的对应位置获取假名,进行替换使用字典表和分配技术,完成对人名的去标识化在去标识过程中,在遇到人名“辛培军”时,随机生成了数5,则使用字典中的排列第5的名字 “齐新燕”替换“辛培军” 该示例使用随机方式构建分配规则,采用了多对一的方式,在保留适当可用性的同时,降低了数据的重标识风险 A.5泛化技术 A.5.1概述泛化技术是指一种降低数据集中所选属性粒度的去标识化技术,对数据进行更概括、抽象的描述 14
GB/37964一2019 泛化技术实现简单,能保护记录级数据的真实性使用泛化技术的目标是减少属性唯一值(更概括地说,是指多个属性值的组合集的唯一值)的数量使得被泛化后的值或多个值的集合)被数据集中多个记录所共享,从而增加某特定个人信息主体被推测出的难度因此,通常选择对标识符属性进行泛化,但是根据具体情况也可考虑对任何属性(特别是敏感属性)进行泛化 A.5.2取整取整涉及为所选的属性选定一个取整基数,然后将每个值向上或向下取整至最接近取整基数的倍数向上还是向下取整按概率确定,该概率值取决于观察值与最接近取整基数倍数的接近程度例如如果取整基数为10,观察值为7,应将7向上取整至10,概率为0.7,若向下取整至0,概率为0.3 受控取整也是可行的,例如确保取整值的求和结果与原始数据的求和取整值相同 A.5.3顶层与底层编码泛化技术为某一属性设定一个可能的最大(或最小)囤值顶层与底层编码技术使用表示顶层(或底层)的阔值替换高于(或低于)该阔值的值该技术适用于连续或分类有序的属性例如,如果一个人的薪水非常高,则可将该用户的薪水值设置为“高于x元”,其中“X”为高收人值的界限,而不记录或报告准确的金额 A.6随机化技术 A.6.1概述随机化技术作为一种去标识化技术类别,指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值该过程降低了攻击者从同一数据记录中根据其他属性值推导出某一属性值的能力随机化技术并不能保证数据在记录集的真实性为达到特定的目标,有效随机化过程需要逐项定制,定制过程中需要详细了解数据特性,并选取合适的参数随机化技术的输出为微数据 A.6.2噪声添加噪声添加是一种随机化技术,通过添加随机值、“随机噪声”到所选的连续属性值中来修改数据集，同时尽可能保持该属性在数据集中的原始统计特性该类统计特性包括属性的分布、平均值、方差、标准偏差、协方差以及相关性 A.6.3置换置换是在不修改属性值的情况下对数据集记录中所选属性的值进行重新排序的一种技术因此置换保持了整个数据集中所选属性的准确统计分布置换技术适用于数字与非数字值因为观察到的不一致性可能有助于对置换算法实施逆向工程，需要考虑如何来确保生成的数据集是一致的不同置换技术的区别在于方法与复杂性的差别在保持所选属性之间原有相关性的情况下,置换算法可用于单个或多个属性通常情况下,采用逆向工程可以将数据恢复到原始状态,从而加大受控重标识的可能性,因此把随机化算法引人到置换中会增强对抗重标识攻击的能力 15
GB/T37964一2019 A.6.4微聚集 “微聚集”是指用某种算法方式计算出来的平均值代替连续属性所有值的去标识化技术对于每种连续属性,或对于所选的一组连续属性,数据集中的所有记录都进行了分组,具有最近属性值的记录属于同一组,而且每一组中至少有k个记录每一种属性的新值替换为该属性所在组中的平均值每组中的各个值越接近,数据的有效性就保持得越好微聚集的输出是微数据,该技术不能保证数据的真实性微聚集技术的不同之处在于;选择的属性、属性值之间的相似性计算方式以及其他考虑因素数据合成技术数据合成是一种以人工方式产生微数据的方法,用以表示预定义的统计数据模型对数据合成技术的选择和使用应注意以下几个方面合成数据集与原始数据特性相符但不包含现有个人信息主体有关的任何数据,但是,若合成 a 后的数据与原始数据的拟合度过高可能会导致敏感信息泄露创建合成数据的方法很多理论上,数招可银鹅所选的统计特性刚机生成该类模狠的关她 b 特征主要体现在每种属性(总体与子总体)的分布以及属性之间的内部关系实际上,合成数据的生成会采用随机化技术与抽样技术对真实数据集进行多次或连续转换合成数据通常用于测试工具与应用合成数据可用于开发查询合成数最可用作真实数最的替代项,数据管理者能在实际数据中重现在合成数据中执行的查询,以确保基于合成数据的处理能够同样正确应用于真实数据利用差分隐私机制可以保证合成数据的隐私 16
GB/37964一2019 附录 B 资料性附录常用去标识化模型 B.1K-匿名模型 B.1.1概述 K-匿名模型是在发布数据时保护个人信息安全的一种模型 K-匿名模型要求发布的数据中,指定标识符(直接标识符或准标识符)属性值相同的每一等价类至少包含K个记录,使攻击者不能判别出个人信息所属的具体个体,从而保护了个人信息安全在使用K-匿名模型整合得到的数据集中,各记录之间的关联性是有限的(1/K) 可独立或综合使用附录A中的各种去标识化技术,以符合K-匿名模型的要求抑制技术、泛化技术及微聚集均适用于数据集中的各种属性,以实现期望的结果 K-匿名模型还包括一些增强概念,如L-多样性和T-接近性 B.1.2L-多样性 1-多样性是针对属性值差异性不大的数据集提出的一种增强概念为防止确定性推导,L-多样性要求在K-匿名的基础上,实现每一等价类在每一敏感属性上存在至少L个不同值在数据分布很不均衡时,防止推导性攻击的能力受到限制 B.1.3T-接近性 T-接近性是L多样性的增强概念,适用于发布数据集的敏感属性分布要尽可能贴近整个数据集的敏感属性分布针对属性值分布不规则,属性值范围很小或已被分类的数据集,为防止概率性推导,要求任何等价类中敏感属性的分布与整个数据集中相应属性的分布之间的距离小于值T B.1.4K匿名的关键考虑因素 B.1.4.1数据风险度量数据集的重标识风险度量包括如下两个关键因素 a 每行记录重标识概率的计算方法数据集中的每一行都包含有关个体的信息,存在重标识的概率对于给定的行,重标识的概率取决于数据集中其他行对于准标识符的属性是否具有相同的值数据集中的“等价类”是指具有与准标识符属性相同值的数据记录行例如,在具有性别、年龄和最高教育水平的属性列的数据集中,所有满足“35岁以上且具有大专学位的老年男子”的数据记录,形成一个等价类等价类的大小等于准标识符具有相同值的行数对于每一行,重标识的概率等于1除以其等价类的大小,即,给定记录行重标识概率=1/等价类大小例如,大小为5的等价类中的每一行都有重标识的概率为0.2 因此,具有较大等价类的行,具有较低的重标识概率 b 根据所使用的发布模型采用适当的风险衡量方法虽然每行记录重标识的概率等于1除以其等价类的大小,但是具体的计算数据集中重标识风险的方法,取决于具体使用的发布模型 17
GB/T37964一2019 公开共享数据发布应使用最大风险因为对于公开数据发布,应假设有攻击者会进行炫耀式攻击该类攻击将针对数据集中最脆弱的行,即具有最小等价类和最高重标识概率的数据行因此,应使用所有行中重标识的最大概率来衡量重标识风险受控共享数据发布应使用严格的平均风险受控共享数据发布数据集的访问仅限于选定数量的已鉴别信息接收方,每行数据的重标识概率是均等的,应使用所有行中重标识的平均概率来衡量数据集中重标识风险为了保护具有高度重标识风险的独特行或等价类,平均值通常建议为0.33,即数据集中等价类的最小尺寸应为3 实际使用时重标识的最大概率也可以定为 0.5 B.1.4.2环境风险度量重标识风险会受到环境风险的影响环境风险是针对数据集发起一次或多次重标识攻击的概率任何去标识化的数据集中都存在重标识风险,然而依据数据发布模型的不同,攻击者可实施攻击类型也是不同的公开共享数据发布 a 该类数据发布模型中,数据集可供任何人使用,无需任何条件,会有攻击者进行炫耀式攻击因此,攻击者对数据集进行重标识攻击的概率为1 受控共享数据发布 b 该类数据发布模型中,环境风险的计算相对复杂,需重点确定可能的重标识攻击概率的方法和函数对于受控共享数据发布,需确定三种不同的重标识攻击的概率;内部故意攻击、来自熟悉的数据集中的个体的无意识识别、数据泄露在衡量环境风险时,应取上述概率的最大值内部故意攻击对于受控共享数据集数据接受者,发起重标识的概率取决于两个因素;数据共享协议中关于数据隐私和安全性的控制范围;接收方进行重标识攻击的动机和能力这两个因素都需在“高”“中”“低”范围内进行定性评估根据受控共享数据发布的数据共享协议,依据不同的隐私和安全控制规定,信息接收方发起身份验证攻击的可能性会有所不同隐私和安全控制水平越高,重标识攻击的可能性就越低数据共享协议中需考虑隐私和安全控制,具体内容包括信息接收方仅允许授权员工以最小权限方式访问和使用数据包括外部合作者和分包商在内的所有工作人员都需要签署保密协议: 采取措施处置指定保留期限外的数据; 如果没有必要的的控制或事先审批.数据将不能开放或与第三方共享; 制定隐私安全策略和规程,并监督执行对包括外部合作或分包场所涉及的人员在内的所有个人和团队成员进行强制性和持续的隐私保护培训和安全培训; 应有应对违反隐私协议的必要措施,可能的措施包括立即向数据保管人发出书面通知; 安装病毒检查和反恶意软件程序; 建立审计系统,记录数据访问人员、时间和行为等信息; 使用加密协议对需要传输的数据进行处理; 信息披露相关的计算机和文件需要被妥善保管,例如用组合门锁或智能门卡等方式保护存放相关计算机的房间,纸质文件存储在密码存储柜中 18
GB/37964一2019 确定信息接收方发起重标识攻击可能性的另一个主要因素是他们的动机和能力信息接收方对于数据集中的一个或多个个体重标识的动机越大,能力越强,实施重标识攻击的概率就越高评估动机和能力时,需要考虑以下因素信息接收方在与组织合作中是否发生过安全事故信息接收方是否存在财务或其他方面的原因,从而发起重标识攻击; 信息接收方是否具有相关技术专长或经济能力.以发起重标识攻击信息接收方是否曾经访问可以关联到实施重标识攻击数据的其他隐私数据库或数据集根据数据共享协议中的隐私和安全控制水平,以及接收者的动机和能力,可以估计内部人员发起重标识攻击的可能性具体如表B.1所示表B.1重标识攻击的可能性分析表隐私和安全控制水平动机和能力重标识攻击概率低 0,05 高中 0. 高 0,2 0.2 低中中 0. 高 0,4 低 0." 低中 0.5 高 0,6 熟悉数据集的内部人无意识重标识除了故意发起重标识攻击,受控共享数据发布的接收方也可能无意中重标识一个或多个主体例如在分析数据时,他们可能会识别出一个朋友,同事,家人或熟人发生这种“攻击”的概率等于随机接收者在数据集中知道某人的概率,该概率的计算公式是 1一1一声)" 式中: -所有人中具有数据集中讨论的条件或特征的个体的百分比 p -认识的平均人数 n1 户的值应由最近的人口统计确定;建议m的平均值应在150190之间数据泄露在受控共享数据发布的情况下,需考虑的第三种攻击是接收方的数据泄露如果信息接收方的设施发生数据泄露,应假设外部攻击者将发起重标识攻击因此,发生这种攻击的概率等于信息接收方设施发生信息泄露的概率应使用公开的数据来了解各行业信息接收方发生数据泄露的情况 B.1.4.3总体风险度量总体风险表示数据集中一行或多行数据被重标识攻击概率根据数据风险和环境风险,可以计算出重标识的总体风险例如总体风险等于数据风险乘以环境风险 19
GB/T37964一2019 B.2 差分隐私模型 B.2.1 概述差分隐私是针对数据隐私泄露问题提出的一种隐私定义,可以用来在数据采集、数据处理和数据发布中对数据集的隐私损失进行度量差分隐私确保数据集中任何特定的个人信息主体的存在与否无法从去标识化数据集或系统响应中推导出即使攻击者能够访问其他相关的数据集,只要隐私损失限定在一定范围内,这些保证就会得到保持差分隐私提供隐私数学定义,在该定义下,数据集的处理结果对单一记录的变化不敏感,单一记录添加到数 a 据集或从数据集中删除,对计算结果的统计特性影响极小,所产生的隐私泄露风险被控制在可接受范围内 b)隐私度量方法,可以监控累积的隐私损失并设置损失限制的“预算” 差分隐私机制在数据集的处理结果上添加了一定量的“噪声”,该噪声通过精心选择的概率分布产生随机噪声既可在采集点(本地模式)添加至每一个人信息主体信息的输人中,也可以添加至差分隐私系统向分析者(服务器模式)提供的输出中 B.2.2服务器模式差分隐私“服务器模式”通常会将数据以原始值保存在安全的数据库中为了保护隐私,对查询的响应仅能从软件组件获得软件组件会接受系统用户或报表软件的查询,并从数据库获得正确的无噪声回答但是,在对用户或报表软件做出响应前,软件组件会添加一定量的随机噪声，且该噪声与查询所对应的隐私损失成比例软件组件负责持续记录累积的隐私损失并确保该损失不超出隐私预算一旦隐私预算耗尽,软件组件应针对系统建立逐项定义的策略来确定是停止响应查询,还是采取其他措施 B.2.3本地模式本地模式适用于执行数据采集的实体不受个人信息主体信任,或采集数据的实体正寻求降低风险并执行数据最小化的情形在该模型中,首先对属于单个个人信息主体的数据或数据的计算结果进行随机化,以便对数据进行去标识化,然后才将其转移至并存储在服务器中特定概率分布生成一个随机量,并添加到每一单独的数据或从属于个人信息主体的数据测量的结果中,以便在采集点对数据进行随机化当源自大量设备的随机化数据聚合并用于采集点的统计分析时,分析结果会紧密与总体的集体行为相关由于噪声在传输前被添加,因此在很多实例中,源自主体的数据报告会存储在服务器中,无需采取其他隐私保护措施,而且产生的数据库可直接共享并进行查询,无需管理者参与 B.2.4差分隐私系统的关键考虑因素 B.2.4.1概率分布在差分隐私的环境下,随机噪声采取随机数的形式,随机数根据所选的概率分布生成可选的概率分布包括零均值的高斯分布、拉普拉斯分布或指数概率分布以拉普拉斯分布为例,决定噪声生成器产生噪声高低的参数是标准差,与s/E成正比,其中S表示给定查询的敏感度,而e则表示相关的隐私预算 20
GB/37964一2019 B.2.4.2敏感度给定查询或函数的敏感度s描述了增加、删除,修改一个个人信息主体时该查询或函数的返回结果最多会改变多少的情况为了“隐藏”带来变化的个人信息主体,需要将一定比例的噪声添加至该特殊查询或函数的所有返回结果中 B.2.4.3隐私预算隐私预算e是差分隐私系统设计的一个参数以拉普拉斯噪声为例,由于噪声的标准差与S/e成正比,则越大,标准差越小,隐私预算开销越小,但通常也会带来较大的隐私风险较小的会增加标雅差,从而增加了较大噪声值添加至实际结果中的概率,因此提供了更大程度的隐私保护 B.2.4.4累积隐私损失差分隐私算法对其应答的每次查询会产生隐私成本或隐私损失在稍心设计的差分隐私算法中单次查询损失可以足够小,不使隐私受到侵犯,但这些损失的累积效应最终会导致对隐私的侵犯为了计算隐私预算中发生的变化-需对从多次查询中累积损失的概念进行规定例如在差分隐私算法中出现了含有相似隐私成本C的n次查询,则总体隐私预算开销将不高于nC 隐私预算耗尽并不意味着对隐私一定有侵犯,而只是表明数学保证的失效一旦保证失效,攻击者就可能利用算法输出并运用推导、关联及其他类型的重标识技术实施攻击,可能会导致重标识攻击的成功实施 B.2.5差分隐私去标识化示例 B.2.5.1概述差分隐私模型的以下特性导致其在实际应用中鲁棒性更强攻击者背景知识无关性;攻击者拥有的背景知识和计算能力不会影响隐私保护程度,即使攻击者获得数据集中除某条记录外的所有记录,仍然无法得知这条数据是否存在于数据集中; 隐私预算可组合性;如果用保证程度分别为e，和e，的差分隐私来回应给定数据集的两个查询,则该对查询提供的隐私保护程度为(ei十E); 后期处理的安全性;该模型不会限制差分隐私结果的用途,即无论差分隐私结果与什么结合或怎么被转换,它仍然是差分隐私的噪声量与数据集大小无关性;隐私保护所添加的噪声量不随数据集的增大而增加,所以差分隐私保护仅通过添加与数据集大小无关的少量噪声,就能达到高级别的隐私保护; 数据分布特性保持性:对数据集实施差分隐私保护机制时,虽然对数据集加人了噪声,但是数据集的分布特性仍能保持 B.2.5.2差分隐私使用方法下面以医疗患者的直方图发布为例对差分隐私模型的使用进行示例说明第一步,获取原始输人数据集H=(hi,hg,,h,},如表B.2所示,它表示的是个人信息的原始数据,由三个属性构成,包括姓名、年龄和心脏病情况 21
GB/T37964一2019 表B.2原始数据集姓名年龄心脏病 31 Alice Yes 72 Ciei No 46 Yes Dave Emily 78 Yes 该示例的无噪声直方图如图B.1所示 20 30 50 60 70 80 40 年龄图B.1无噪声直方图该处的输人数据集为H=(2,1,3,4,3,4) 发布如图B.1所示的直方图会导致表B.1中个人隐私泄露例如,假设攻击者事前知道Dave的年龄为46岁,但不知道他是否有心脏病如果攻击者通过背景知识获知桶[40,50]中除Dave之外其他人的病况(例如心脏病人数为2),通过直方图的桶[40,50]计数为3,能够推断出Dave有心脏病第二步,定义差分隐私预算e;引人噪声与该值成反比该值越小,引人的噪声越大,因此隐私保护能力越强;与此相反,越大,引人的噪声越小,隐私泄露的风险越大在实际使用时,该值是事先设定的,计算公式如下任意给定两个邻近数据集D和D',D和D'属性结构相同且最多有一条不同的记录,若随机算法 M,值域为range(M),在D和D'上的输出集o(oErange(M)),若满足如下概率公式,则称算法M满足e-差分隐私 PM(D)=O]sexp(e×PM(D'=O] 第三步,计算数据集的敏感度s,敏感度是指剔除数据集中任一记录对查询结果造成的最大改变其计算公式如下对于差别至多为一个记录的两个数据集D和D',对于某查询函数f的全局敏感度s为 S一max(D)一/D'l 敏感度的数据一般都比较小,且敏感度只是函数的性质之一,与数据集无关在该示例中,S的值为1,它表示删除或添加一条记录,最多影响直方图中1个桶的统计情况,例如删除表B.1中的Alice记录,只影响桶[30,40]的计数第四步,在采集用户的数据前,向其中随机地注人一些噪声,即在结果上加满足某种分布的噪声,使 22
GB/37964一2019 查询结果随机化常用的噪声添加机制为拉普拉斯机制和指数机制,其中输出结果为数值时采用拉普拉斯机制,输出结果为非数值时采用指数机制拉普拉斯机制的计算公式如下对于数据集D上的任意一个函数f:D-一R',d表示函数的输出维度,若随机算法M满足如下所示公式,则其满足e-差分隐私 M(D)=f(D)十Lap(S/e 其中,e是隐私预算参数,s是函数f的全局敏感度,公式如上所示引人噪声与敏感度成正比,与 e成反比 s越大,e越小,引人的噪声越大,表示差分隐私机制的隐私保护程度越强指数机制的计算公式具体如下: 设随机算法M输人为数据集D,输出为实体对象rErange(M),g(D,r)为可用性函数,S为函数q D,r)的敏感度若算法M以正比于exp(e×q(D,r)/2S)的概率从 range(M)中选择并输出r,那么算法M提供-差分隐私保护此处采用拉普拉斯机制分别对直方图中的每个桶的值添加拉普拉斯噪声,对桶的真实值进行扰动则对每个桶通过添加拉斯噪声后的数据集为H'={h',h ',,h '),其中 h'=h1十Iap(S/e),h '=h2十Lap(S/e),,h '=h.十Lap(S/e. 因为s=1,所以h'=h十Lap(1/e),h，'=h，十L.ap(1/e),,h'=h,十Lap(1/e) 计算得出,H'=(1,2,5,3,2,3 第五步,发布增加噪声后的数据集H',如图B.2所示依据如图B.2所示的直方图,攻击者在事前知道Dave的年龄为46岁,同时获得了桶[40,50]中除Dave之外其他人的病况(例如心脏病人数为2) 通过直方图的桶[40,50]计数5,已经不能推断出Dave是否有心脏病 3 20 30 40 5o 60 心 80 年龄图B.2差分隐私机制下的直方图 23
GB/T37964一2019 附录资料性附录) 去标识化模型和技术的选择 C.1常用去标识化技术和模型的特性常用去标识化技术和模型的特性见表C.1 表C.1常用去标识化技术和模型的特性输出数据数据记录适用数据适用属性降低分离降低关联降低推导计算类别子类类型级保真性类型类型风险风险风险消耗部分部分抽样微数据部分低统计技术统计数据低/中" 聚合连续数据所有确定性加密微数据所有所有部分中中保序加密微数据部分所有所有所有同态加密微数据所有高密码技术保留格式微数据所有所有高加密同态秘密微数据所有所有共享屏蔽微数据分类数据局部标识符部分低抑制技术|局部抑制微数据分类数据标识符部分部分部分低记录抑制微数据部分部分部分低假名化技术微数据分类数据直接标识行部分低"/中取整微数据连续数据标识属性部分部分低泛化技术顶层与底有序数据标识属性微数据部分部分低层编码噪声漆加微数据连续数据标识属性部分部分部分低随机化置换微数据所有标识属性部分部分部分技术部分微聚集微数据连续数据所有部分中数据合成技术微数据所有所有低/中 24
GB/37964一2019 表c.1(续》输出数据数据记录适用数据适用属性降低分离降低关联降低推导计算类别子类类型级保真性类型类型风险风险风险消耗差分隐私模型微数据所有标识属性部分 /高" 中所有部分 K-匿名模型微数据准标识符注;“、”表示满足;“×”表示不满足如果需要多次进行不同的聚合如果不需要查看映射表如果需要多次进行如果需要进行查询管理除非K匿名是基于微聚集实现的常见标识符的去标识化参考姓名的去标识化 C.2.1 姓名是一种常用的标识符,适用的去标识化方法举例如下泛化编码使用概括、抽象的符号来表示,如使用“张先生”来代替“张三”,或使用“张某某”来 aa 代替“张三” 这种方法是用在需要保留“姓”这一基本特征的应用场景抑制屏蔽直接删除姓名或使用统一的“关”来表示如所有的姓名都使用“关关*”代替 b 随机替代使用随机生成的汉字来表示,如使用随机生成的“辰筹猎”来取代“张三丰” c 假名化构建常用人名字典表,并从中选择一个来表示.如先构建常用的人名字典表.包括龚 d 小虹、黄益洪、龙家锐、等,假名化时根据按照顺序或随机选择一个人名代替原名如使用 “龚小虹”取代“张三丰” 这种方法有可能用在需要保持姓名数据可逆变换的场景可逆编码采用密码或其他变换技术,将姓名转变成另外的字符,并保持可逆特性如使用密码和字符编码技术,使用“SGIHLIKH]”代替“张三丰”,或使用“Fz”代替“Bob” C.2.2身份证号的去标识化身份证号也是一种常用的标识符,国内身份证号按照GB11643一1999制定的规则进行编码,其结构分为地址码,出生日期码、顺序码和校验码,常见的去标识化方法举例如下 a 抑制屏蔽直接删除身份证号或使用统一的“关”来表示如所有的身份证号都使用“* ”代替 b 部分屏蔽屏蔽身份证号中的一部分,以保护个人信息如“440524188001010014”可以使用 “440524关关0014”“440524188关关0014”或“关关188关关关”代替,上述数据可分别用在需要保密出生日期、保密出生日期但允许对数据按时代做统计分析、保密所有信息但允许对出生日期按时代做统计分析等场景可逆编码采用密码或其他变换技术,将身份证号转变成另外的字符,并保持可逆特性如使用密码和字符编码技术,使用“SF39F83”代替“440524188001010014" d 数据合成采用重新产生的数据替代原身份证号,如使用数据集中的记录顺序号替代原身份证号,或随机产生符合身份证号编码规则的新身份证号代替原始值 25
GB/T37964一2019 C.2.3银行卡号的去标识化银行卡号在很多应用中和个人身份密切关联,是一种常用的标识符银行卡号是按照规则进行编码的,其结构分为发卡机构标识代码、自定义位和校验码常见的去标识化方法举例如下: a 抑制屏蔽直接删除银行卡号或使用统一的“关”来表示如所有的银行卡号都使用“*关 ”代替 b 部分屏蔽屏蔽银行卡号中的一部分,以保护卡号信息如分别可以屏蔽银行卡号中的发卡机构标识代码和自定义位可逆编码采用密码或其他变换技术,将银行卡号转变成另外的字符,并保持可逆特性如使用密码和字符编码技术这种方法适用于使用银行卡号做数据库主键的应用场景 d 数据合成采用重新产生的数据替代原银行卡号,如使用随机产生符合身份证号编码规则的新银行卡号代替原始值,这种场景适应于对银行卡号做合法性校验的应用场景 C.2.4地址的去标识化对于地址,常用的去标识化方法举例如下泛化编码使用概括、抽象的符号来表示,如“江西省吉安市安福县”使用“南方某地”或“」省” a) 来代替抑制屏蔽直接删除姓名或使用统一的“关”来表示如所有的地址都使用“关* b 代替部分屏蔽屏蔽地址中的一部分,以保护地址信息如使用“江西省XX市Xx县”来代替“江西省吉安市安福县” 数据合成采用重新产生的数据替代原地址数据,数据产生方法可以采用确定性方法或随机 d 性方法如使用“黑龙江省鸡西市特铁县北京路23号”代替“江西省吉安市安福县安平路 l 号” C.2.5电话号码的去标识化常见的电话号码去标识化方法举例如下抑制屏蔽直接删除电话号码或使用统一的“*”来表示如所有的电话号码都使用“000000” a 代替部分屏蔽屏蔽电话号码中的一部分,以保护号码信息如“19888888888”可以使用“198关关 b "“198关关关关8888”或“关** 8888”代替关关关关随机替代使用随机生成的一串数字来表示，如使用随机生成的“2346544580”来取代 “19888888888” 可逆编码采用密码或其他变换技术,将电话号码转变成另外的字符,并保持可逆特性如使 d 用密码和字符编码技术,使用“15458982684”代替“19888888888” c.2.6数值型标识符的去标识化常用的数值型标识符的去标识化包括 a 泛化编码使用概括抽象的符号来表示,如“有四个人,他们分别是蓝色、绿色和浅褐色的眼睛”来代替“有1个人是蓝色眼睛,2个人是绿色的眼睛,1个人是浅褐色的眼睛” b 抑制屏蔽直接删除数值或使用统一的“关”来表示如所有的数值都使用“* 代替顶层和底层编码大于或小于一个特定值的处理成某个固定值例如,年龄超过70岁的一律 26
GB/37964一2019 用“大于70岁”描述,以保障满足此条件的人数多于20000人 d 部分屏蔽使用数值的高位部分代替原有数值,如百分制考试成绩全部使用去掉个位数、保留十位数的数值代替使用数据集中其他记录的相应数值代替本记录的数值如设定规则,将记录集中记录交换的所有的身高数据取出并全部打乱位置后(其他属性数据位置不变)放回原数据集中这种方法可以保持数据集的统计特性不变噪声添加相对原始数据,产生微小的随机数,将其加到原始数值上并代替原始数值如对于身高1.72m,产生随机数值一0.1lm,加到原始数值后将其变为l.61 m 数据合成采用重新产生的数据替代原始数据,数据产生方法可以采用确定性方法或随机性方法如使用“19”岁年龄代替“45”岁年龄 C.2.7日期的去标识化在数据集中,日期有多种存在形式,包括出生日期、开始日期、纪念日等常见的对日期的去标识化方法包括泛化编码使用概括,抽象的日期来表示,如使用1880年代替1880年1月1日 a b)抑制屏蔽直接删除日期数据或使用统一的“关”来表示如所有的数值都使用“某年某日” 代替部分屏蔽对日期中的一部分做屏蔽,如1880年某月1日代替1880年1月1日 d 记录交换使用数据集中其他记录的相应数值代替本记录的数值如设定规则,将记录集中的所有的日期数据取出并全部打乱位置后(其他属性数据位置不变)放回到原数据集中这种方法有利于保持数据集的统计特性相对原始数据,产生微小的随机数,将其加到原始数值上并代替原始数值如对于噪声添加出生日期1880年1月1日,产生随数值32天,加到原始数值后将其变为1880年2月2日数据合成采用重新产生的数据替代原日期数据,如使用“1972年8月12日”代替“1880年 fD 1月1日” C.2.8地理位置的去标识化地理数据在数据集中的表现形式多种多样地理位置可以通过地图坐标推断出来例如 39.1351966,一77.2164013),可以通过街道地址(例如清华园1号)或邮编(100084) 地理位置也可能隐藏在文本数据中 -些地理位置是不可标识的(例如,一个拥挤的火车站),而另一些是高度可标识的例如,一个单身汉居住的房子) 单独的地址可能并不可标识,但是如果将它们表示的位置与个人相关联则会成为可标识的信息对地理位置信息进行去标识化,采用的噪声值很大程度上取决于外界因素例如在中心区范围内通过加减100m的范围,而偏远地区通过加减5km来得到充足的模糊化结果;或基于行政区划进行泛化,例如将“清华园1号”泛化为“北京市”,以保障此范围内的人数多于20000人添加噪声时也要考虑噪声对数据真实性的影响例如,将一个居民的沿海住所搬迁到内陆甚至跨政治领域范哮的另一个国家,这种方式有时是不可取的在一个个体的位置信息被持续记录的情况下,对于地理数据信息的去标识化将会变得尤其有挑战性这是因为事件地点的特征记录就像是人的指纹一样,有利于重标识,即使是很少量的数据记录也能达到这样的效果 27
GB/T37964一2019 C3去标识化模型的应用如果针对重标识风险的量化保证纳人了组织的目标中,则可执行合适的去标识化模型对于微数据,K-匿名是提供针对重标识风险的量化保证的一种方法可利用不同的去标识化技术执行K-匿名因此,去标识化数据的有效性将由模型中所含的特定去标识化技术决定例如,如果去标识化数据需要在记录级保持真实性,则随机化技术无法用来实现K-匿名差分隐私是一种广泛适用于以下情况的方法;需要可证明的隐私水平,而且针对数据访问及噪声添加是可行的除了采用不同隐私模型来实现标准的统计分析工具(如平均值、标准偏差及直方图)之外，还可定制适用于特定应用的不同的隐私系统,这些应用采用统计工具作为其逻辑的一部分例如数据挖掘工具(如聚类算法)及机器学习算法(如决策树支持向量机及回归). 去标识化模型需要在实施时确定一些参数的值(如K-匿名的k,差分隐私的e) 选择这些参数值取决于重标识的总体风险和特定用例中的应用要求 28
GB/37964一2019 附录 D 资料性附录去标识化面临的挑战 D.1聚合技术的挑战聚合未必意味着保障了隐私保护,尤其是当数据被多个公开发布的数据源包含时下面举个例子，学校通过聚合的方式,来公布学生表现好坏分别有多少人表现学生个数 30 良中 50 20 在接下来的一个月,有名新同学加人,然后学校又重新发布了上述表格学生个数表现 30 良 50 中 21 通过对比上面这两个表,可以推断出后加人的学生是优秀表现,这是因为聚合的方法没能在多次数一起来以保证保护隐私单独考虑果合的方法并不能确保达到隐私保护的目的,但是，差据重发布中统- 分隐私的方法在理论上保证了采用聚合时的隐私保护,同时也维护了较高的数据精确度,这类方法采用了添加可控的“随机噪声”的方式实现 D.2高维数据的挑战尽管对直接标识符进行清理和对准标识符进行转化，一些高维数据仍展现出可识别的特征,这些数据可以用来和相关个体进行关联 D.3关联数据的挑战数据的关联方式多种多样假名允许来自同一个人的数据记录联系在一起家族标识符允许父母的数据与子女联系起来设备标识符允许将数据关联到物理设备,并可能将来自同-设备的所有数据联系在一起数据也可以与地理位置相关联数据间的联系提供了多样的属性,这些属性可用于区分数据记录与人群中其他人的真实身份,从而增加重标识的风险例如,心率测量可能不被认为是可标识的,但是给定长的心率测量序列,数据集中的每个人都将具有独特的心率测量的特征,因此数据集就可能容易与另一个数据集包含这些相同值的关联起来地理位置数据可以随着时间的推移而联系起来创建个体行为时间位置模式可以作为重标识目的的“指纹”,即使每个人的记录位置很少记录之间的依赖关系即使没有明确的链接标识符也可能导致记录链接例如,一个组织可能是新 29
GB/T37964一2019 雇员在雇用后7天内进行能力测试该信息将允许在正确报告员工的开始日期的员工数据集与准确报告测试日期的员工数据集之间建立联系 D.4组合的挑战在计算机科学中,组合是指将多个功能结合在一起,创造出更复杂的功能复杂系统的一个特征是组合创建的复杂功能可能会产生不可预知的结果,即使它们是由非常简单的组件构成的当去标识化时,重要的是要了解所使用的技术是否会在组合时保留其隐私保证例如,如果相同的数据集通过两种不同的去标识化可用,则应注意如果两个下游数据集被重新组合,隐私保证是否保留当相同的数据集提供给多个下游用户时,当数据集定期发布时,或计算机技术的变化导致数据集的新方面可用时,可能会出现组合问题隐私风险可能由意料之外的组合造成,这是发布数据集应经过定期审查和重新评估的原因之 D.5增量去标识化的挑战数据去标识化之后,出现新的增量数据时,可以考虑两种方式每次对全量数据进行去标识化 a D)首次全量去标识化,后面仅对增量数据进行去标识化第一种方式,需要考虑在每次去标识化过程中,相同部分的去标识化数据是否需要保持一致的问题,这关系到数据的有用性问题第二种方式,则需要考虑增量数据是否带来重标识风险提高的问题例如,考虑医院的某个科室,就诊的病人通常在80岁以下,在进行噪声添加(十2岁或一2岁)后共享数据,随后有个95岁的病人来就诊,即使采用相同的噪声添加,新增数据共享后,这个病人被重标识的风险依然很高 30
GB/37964一2019 参考文献 [1]GB/T31722-2015信息技术安全技术信息安全风险管理 [[2]GB/T35273一2017信息安全技术个人信息安全规范 [3]全国人民代表大会常务委员会.网络安全法.2016年11月 7日 ehnolog Security [4]IsO/IEC2stCD20889,Information tecdhnmiques一Pivasycenhancin6 datade-identificationtechniques,June2017. [5" lnformationandPrivacyCommissionerofOntario,De-identificationGuideinesforStructured Data,June2016. NISTSpecialPublication800-188(2ndDRAFT),DeldenifyingGovernmentDatasets [6] December2016. NISTIR8053,De-ldentificationofPersonallnformmation,October2015. [[8]EIliot,Mark,etal "TheAnonymisationDecision-MakingFramework”2016. [9]HITRUST,De-ldentificationFramework,March2015. [10]IHEITInfrastructureTechnicalCommittee,IHEITInfrastructureHandbookDe-ldentifi- cation,June2014 11]HHS,(GuidanceonDe-identificationofProtectedHealthInformation,November2012

信息安全技术个人信息去标识化指南GB/T37964-2019

个人信息的去标识化是指通过对个人身份信息的处理，将个人身份信息与特定个体脱离关联，从而达到保护个人隐私的目的。GB/T37964-2019《信息安全技术个人信息去标识化指南》为企业和组织提供了具体的实施方法和规范。

该标准包括了个人信息去标识化的定义、原则、流程、技术要求等内容。其中，个人信息去标识化的原则包括精确性、效率性、可操作性、可验证性和可追溯性。流程上主要包括数据采集、数据加工、数据发布这三个环节。

在数据采集方面，标准要求明确收集哪些信息，并采用匿名化方式进行采集。在数据加工方面，标准要求对个人信息进行去标识化处理，并保证去标识化后的数据不能被还原。在数据发布方面，标准要求明确发布哪些信息，并采用安全的方式进行发布。

此外，该标准还规定了个人信息去标识化的技术要求。例如，要求对数据加工过程进行监控和审计，保证操作行为可追溯；要求实现对个人信息的脱敏和加密，保证数据安全性；要求使用标准格式和规范化语言，实现数据的交换和共享。

总之，GB/T37964-2019《信息安全技术个人信息去标识化指南》的出台为个人信息保护提供了重要的法规依据和技术支持。企业和组织在处理个人信息时，应严格按照该标准的要求进行操作，从而真正做到保护个人隐私，促进信息安全发展。

信息安全技术个人信息去标识化指南的相关资料

和信息安全技术个人信息去标识化指南类似的标准

GB/T20008-2005

信息安全技术操作系统安全评估准则

2022/11/1 21:19:55 现行

GB/T20282-2006

信息安全技术信息系统安全工程管理要求

2022/11/4 23:34:29 现行

GB/T20274.1-2006

信息安全技术信息系统安全保障评估框架第一部分：简介和一般模型

2022/11/4 22:58:45 现行

GB/T20271-2006

信息安全技术信息系统通用安全技术要求

2022/11/4 22:40:21 现行

GB/T20270-2006

信息安全技术网络基础安全技术要求

2022/11/4 22:21:58 现行

GB/T20269-2006

信息安全技术信息系统安全管理要求

2022/11/4 22:03:36 现行

GB/T20984-2007

信息安全技术信息安全风险评估规范

2022/11/3 3:32:13 现行

GB/T21054-2007

信息安全技术公钥基础设施PKI系统安全等级保护评估准则

2022/11/2 14:25:19 现行

GB/T21053-2007

信息安全技术公钥基础设施PKI系统安全等级保护技术要求

2022/11/2 14:06:56 现行

GB/T21052-2007

信息安全技术信息系统物理安全技术要求

2022/11/2 13:48:21 现行

GB/T20274.4-2008

信息安全技术信息系统安全保障评估框架第4部分：工程保障

2022/10/31 23:03:47 现行

GB/T20274.3-2008

信息安全技术信息系统安全保障评估框架第3部分：管理保障

2022/10/31 22:45:02 现行

GB/T24363-2009

信息安全技术信息安全应急响应计划规范

2022/10/24 20:35:57 现行

GB/T25062-2010

信息安全技术鉴别与授权基于角色的访问控制模型与管理规范

2022/10/30 3:45:32 现行

GB/T25069-2010

信息安全技术术语

2022/10/30 1:33:47 现行

声明： 本站所有资源均来源于互联网，本站仅作为观摩学习的环境，将不对任何资源负法律责任。如果无意侵犯了您的权利，请及时发送邮件到“abc@gbbz.net”，本站会第一时间进行改正或删除处理，保证您的权利！本站资源仅供学习和参考，请勿用于商业用途，并请于下载后24小时内删除，否则产生的一切后果将由您承担！

GB/T37964-2019

信息安全技术个人信息去标识化指南

Informationsecuritytechnology—Guideforde-identifyingpersonalinformation

以图片形式预览信息安全技术个人信息去标识化指南