中国政府网 | 重庆市人民政府
首页 政务公开 渝快办 互动交流

您当前的位置: 首页 > 工作情况

观点 | 开放环境下大数据安全开发利用的挑战和思考

日期:2023-01-29

导语

数据作为新型生产要素,与云计算、大数据、人工智能等新兴技术深度融合,促进社会生产力以前所未有的速度发展。以数据为基础资源,我国将数字经济作为国家战略进行实施,并强调数据安全是数字经济健康发展的基本保障。当前的数据环境更加开放,共享利用更为频繁,数据呈现来源广、规模大、结构丰富、处理行为多样、拥有权与使用权分离等特点,针对数据面临着被恶意窃取、篡改、删除、非法使用等威胁和技术挑战,以密码技术为核心,设计了数据安全基因模型,提出了具有安全存储、密态利用、全程监管能力的开放环境下数据安全架构,为不同典型场景的数据安全需求提供解决方案。

时代背景

随着云计算、大数据、物联网、5G 通信、人工智能技术等新兴技术的发展和应用,数据已经成为企业和国家的基础资源,在政府高效治理、企业生产提质增效、市场资源获取、科技创新等方面发挥了关键作用,极大地促进了社会经济的快速发展。以数据为中心的信息时代已经到来,数据已成为国家战略资源。201510 月,中共十八届五中全会首次提出国家大数据战略,旨在全面推进我国大数据发展和应用,建设数据强国,促进经济转型升级;2020 4 月,中共中央、国务院正式发布了《关于构建更加完善的要素市场化配置体制机制的意见》,首次提出将数据作为生产要素,强调推进政府数据开放共享,加强数据资源整合和安全保护;2022 1 月,国务院印发了《十四五数字经济发展规划》,部署了优化升级数字基础设施、充分发挥数据要素作用、大力推进产业数字化转型、加快推动数字产业化、持续提升公共服务数字化水平、健全完善数字经济治理体系、着力强化数字经济安全体系、有效拓展数字经济国际合作 8 项重点任务,目标是实现 2025 年数字经济核心产业增加值占国内生产总值比重达到 10%2022 1 月,《求是》杂志发布了习近平总书记重要文章《不断做强做优做大我国数字经济》,指出发展数字经济是把握新一轮科技革命和产业变革新机遇的战略选择。我国从大数据战略、数据生产要素等逐渐向数字经济的国家战略发展,持续强化了数据的战略意义。

数据作为重要的基础资源,受到世界各国、组织的高度重视。各个组织可以运用先进的数据分析处理技术,收集多来源的海量数据,实施数据挖掘、机器学习等算法,提炼出高价值数据信息。同时,数据是指任何以电子或者其他方式对信息的记录,其复制成本低、环境容易不受控。由于数据本身具有利用价值且容易被攻击,因此数据安全问题日益严重,危及国家、社会及个人的安全,严重时将引发国家威胁、社会混乱、个人财产或生命安全威胁。2019 9 月,Facebook 公司泄露了 4 亿条用户的账号、电话号码等信息,并被美国联邦贸易委员会罚款 50 亿美元;2020 4 月,知名的视频会议软件 Zoom,在用户安装或打开应用程序时收集用户信息,并因安全防护不到位,导致 1.5 万个会议视频遭泄露;2021 10 月,江苏无锡警方成功破获了一起侵犯公民个人信息案,犯罪嫌疑人非法获取各类公民信息 54 亿多条,并通过非法网络平台以查询、出售等方式牟取利益。可见,国内外每年的数据安全事件频发。

为了降低数据安全事件频发导致的安全危害,确保数据被合理地开发使用,并保证数据经济健康有序发展,世界各大经济体相继制定了一系列数据安全法律法规。2012 2 月,美国白宫提出了《消费者隐私权法案》,让消费者能更好地控制他们留在互联网上数据足迹的使用、储存和销售。2018 5 月,欧盟出台了《通用数据保护条例》(General Data ProtectionRegulationGDPR),成为欧盟隐私和数据保护的法律框架,要求在欧盟地域内的企业满足条例的合规性要求。2021 6—8 月,我国相继发布了《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》,规范数据处理活动、个人信息处理活动,保障数据安全,促进数据开发利用和个人信息合理利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益。

由此可见,数据是企业和国家发展的基础资源、关键资源,数据要素基础设施建设、数字经济发展、数据安全防护是世界各国的战略共识。本文主要聚焦于数据安全利用,分析开放环境下数据安全面临的挑战,介绍数据安全技术的发展现状,设计数据安全开发利用技术架构和系统组成,并简要提出典型场景下的应用模式。

数据开发利用的安全挑战

数据开发利用过程,也是数据、算法和算力协同发展、持续递进的过程,其核心是以数据为资源,挖掘信息价值。如今,互联网、物联网、5G 通信等网络技术为大规模边端数据采集提供了可靠手段。云计算技术为数据存储与处理提供了灵活配置的基础设施资源池,具备了算力基础。大数据技术使得大规模数据存储与处理具备了高效运行和海量数据汇聚融合的能力。人工智能技术为数据智能分析和价值提炼提供了算法能力。整个数据开发利用过程融合了云计算、大数据、物联网、移动通信、人工智能等技术,贯穿了大规模边端、云计算设施、大数据中心、智能应用等信息系统,涉及数据拥有方、平台运营方、数据使用方、监管方等角色。因此,数据环境是一个广泛开放式环境,并处于频繁流动与共享利用状态,加剧了跨部门、跨行业的数据流动趋势。因数据具有来源广、规模大、结构类型丰富、处理行为多样、拥有权与使用权分离等特点,使数据安全在开放环境下面临着新的挑战。

1)数据隐私泄露风险高。

信息技术的发展极大地促进了社会向着数字化、智能化方向快速发展,数据已经成为承载和描述实体信息的基础要素,同时也记录了关系个人和机构的敏感信息。例如,个人使用的网上购物、网上银行、电子支付、打车平台、个人政务办理等数字化服务,会向服务运营商注册并提供身份证、个人照片、住址、性别、年龄等敏感信息;企业使用商业云计算和大数据平台执行企业协同办公、业务流程、财务管理等应用,同样会导致企业敏感信息被置于第三方运营商中,一些运营商为了提升服务能力,会基于用户数据进行分析处理。而这些具有挖掘价值的数据,往往成为黑客攻击的对象。因此,随着社会数字化进程加快,数据成为描述实体信息的基础要素,但数据收集和使用的不可控导致数据隐私泄露风险高。

2)数据融合安全能力弱。

数据作为一种生产要素,能够通过数据挖掘、联合分析来产生价值,促进企业生产力的提升。随着数据挖掘和人工智能技术的发展,需要大量高质量的数据集来生成准确的算法模型,这促进了多个机构间的数据形成特征互补、数据量扩充,以联合协作的方式执行数据融合计算。但数据涉及用户和机构的隐私,必须采用安全手段保护数据融合过程的安全。传统安全防护以边界防护为主,无法实施数据流通的动态防护。同时,常用的基础加密技术会破坏数据结构,导致无法执行加密计算,而执行密态处理的同态加密计算、安全多方计算等技术的效率还不能满足大规模应用的需求。因此,数据作为生产要素需要被汇聚和计算,仅凭当前安全防护技术和加密技术,无法满足海量密态数据处理需求,呈现出数据融合安全能力弱的问题。

3)数据流转全程监管难。合规性是当前

数据安全治理的重要内容,在当前政务数据开放共享、互联网企业联盟数据共享等背景下,以及国家不断增强的数据安全法律法规约束下,实施数据内容和数据行为的全程监管是一个具有挑战性的难题。数据在采集汇聚时,来自不同的终端和用户,其类型多样,敏感程度不同,难以实施细粒度的管理。数据流转使得数据形成一张复杂的数据网络,其流向复杂、与计算任务深度耦合,难以跟踪。数据在融合计算时,关联数据方较多、权重不一、融合计算行为多样,难以进行授权和可信度量化。因此,数据动态流动频繁、数据类型丰富、数据利用行为多样,使数据采集、存储、传输、处理、交换、销毁等全程监管能力实施难度加大。数据隐私泄露风险高、数据融合安全能力弱、数据流转全程监管难是当前开放环境下数据安全面临的主要挑战。为了应对挑战,本文以密码技术为核心,构建新型计算模式,重点解决安全存储、密态利用、有效监管等关键环节的安全防护问题。

数据安全开发利用技术现状分析

数据生命周期主要有采集、传输、存储、处理、交换、销毁等 6 个阶段,在传统的安全手段中,针对静态数据主要以加密和认证为主,针对动态数据主要以边界式防护为主。在采集、传输阶段的密码防护手段较为成熟,本文聚焦于动态数据处理,重点分析数据的安全存储、密态利用和有效监管的现状。

2.1 安全存储

在安全存储方面,数据的完整性、可用性、可靠性亟需保障。Bellare 等人(2013 年)、Li等人(2016 年)、Ren 等人(2021 年)提出的轻量级加密存储方案,Dijk 等人(2012 年)、Fisch 等人(2019 年)、Cecchetti 等人(2019 年)提出的多副本编码协议,以及 Ateniese 等人(2007年)、Bowers 等人(2009 年)提出的数据完整性验证技术,推动了分布式安全存储应用。谷歌 GFS2003 年)、亚马逊 Snowball2006 年)、微软 OneDrive2014 年)、华为 GaussDB2020 年)等云存储方案的安全性逐渐增强,但都是针对中心化环境而设计,不适用于跨中心或去中心化的分布式存储。2020 年,主网上线的星际文件系统(InterPlanetary File SystemIPFS)采用无中心组网,将加密文件切割成多个碎片,采用基于 zk-SNARK 的副本证明机制,实现安全存储,周数据增量为 PB 级,且能提供 100 Gbps以上的吞吐量,解决了单点故障等缺陷,但仍存在存储空间浪费严重、数据完整性无保障、数据滥用难控制等问题。

收敛加密、数据完整性验证、细粒度访问控制等技术提升了数据存储安全性,但存储环境开放带来的数据泄露、篡改、删除等事件对数据安全可靠存储造成了严重威胁,仍然存在技术瓶颈,主要包括加密存储模式下数据难以去重、加密存储备份与同步效率低、数据远程完整性验证困难。因此,面向海量、异构、多维数据安全可靠存储,亟需研究轻量级加密、多备份存储、高效更新、完整性验证等关键技术,为我国数据治理提供安全存储技术支撑。

2.2 密态利用

开放环境下打破数据流通壁垒的关键在于解决制约数据利用的隐私保护掣肘。数据安全利用主要涉及可搜索加密、隐私信息检索等密文检索技术,以及同态加密、安全多方计算等密态计算技术。其中,在密文检索方面,Boneh 等人(2004年)、Lai 等人(2018 年)、Wang 等人(2018年)、Bossuat 等人(2021 年)提出的可搜索加密方案都是针对中心化环境而设计,不适用于跨中心分布式检索;2011 年,麻省理工学院更新的 CryptDB 密态数据库系统,在 2.5 万条数据集下等值、范围检索耗时不超过 7.3 秒;NDSS 2021 最新结果表明隐私信息检索发现方案 在 228 条数据下单次检索耗时 1.92 秒。在同态计算方面,Brakerski 等人(2012 年)、Fan 等人(2012 年)、Gentry 等人(2013 年)、Cheon 等人(2017 年)提出的方案只适用于中心化的外包计算场景,无法直接应用于多方计算场景;2020 年,IBM 更新的 HeLib Microsft更新的 SEAL 同态密态计算库的加法门电路计算耗时较少,但是乘法门电路计算耗时动辄数十甚至上百毫秒;2021 年,中国电科三十所依托国家重点研发计划项目集成的密态数据计算系统能够实现密文加法、乘法及密文刷新耗时都控制在 10 毫秒内。在安全多方计算方面,Yao1986 年 )、Damgard 等 人(2012 年 )、Hong 等人(2019 年)、Garimella 等人(2021 年)[22]提出的方案大多难以平衡通信负载、计算开销和安全强度。对此,国际上,单同态加密标准ISO/IEC 18033-6、安全多方计算标准草案 IEEEP2842、联邦学习 IEEE 3652.1-2020 相关国际标准被提出。国内,2020 年,中国信息通信研究院成立了隐私计算联盟;同年,中国人民银行发布了行业标准 JR/T 0196—2020《多方安全计算金融应用技术规范》,凸显了密态数据处理技术在国家数据安全发展中的重要作用。

现有的密态计算技术,能够实现加密数据下的数据利用,但仍然存在技术瓶颈待突破,主要包括可搜索加密复杂检索效率低、安全多方计算通信开销高、同态加密计算耗时大。因此,突破跨中心场景下可搜索加密、同态加密、安全多方计算等实用化关键技术,是未来的重要发展方向。

2.3 数据监管

数据监管主要涉及数据行为检测与威胁预警、异常事件取证溯源等技术。在行为检测与威胁预警方面,2019 年,Amazon Security Hub 将机器学习和模式匹配技术应用于敏感数据识别,实现了自动化持续安全性检查,并规范化调查结果格式;2020 年,IBM QRadar 在推出的最新版本中引入异常搜索参数,检测超过 7 万种异常与危险,并利用人工智能技术的自动分类将调查速度提高了 60 倍,实现了秒级实时监控与危险预警。在异常事件取证溯源方面,2019 年,Exabeam 提出 Cloud Archive 组件以提供可搜索的日志存储,该组件可将数据保留长达 10 年,通过构建日志事件时间线实现威胁事件的取证溯源;2020 年,Splunk 整合数据利用行为日志,用于加速关联属性异常定位,结合自动化的噪音事件隔离和端对端的信息共享,实现在秒级以内对 65 种异常和 25 种威胁行为的范围确定与原因追溯;国内山东大学、数字广东网络建设有限公司等团队也在此领域进行了深入的探索,对于多源异构数据采集、数据标准体系建设、数据资产治理与监管 3 个层面,建立了涵盖数据快速定位、数据流转监管的技术体系。总体而言,目前数据流转监管技术大多部署在行业数据中心内部,缺乏对开放平台数据利用行为的准确监测,数据利用的合理规则策略尚未形成。因此,亟需研究开放环境下数据利用行为监管技术,制定全日志自动审计规则,构建层级化监管平台。

数据监管经历了人工为主的初级监管、自动化监管、大数据监管,以及正在发展的智能化监管,但仍然存在技术瓶颈,主要包括现有监管方案不适合开放平台,数据行为合规策略尚未形成,层级化第三方监管效率低。因此,亟需构建事前、事中、事后全链条运用的大数据化智能监管。

综上,目前大数据安全利用技术仅具备海量数据简单密态处理能力,不能满足开放环境下跨中心海量数据流通的复杂处理安全需求。我国在数据安全利用理论、算法设计、系统开发方面尚需突破,产业化尚处于探索阶段。亟需创新开放环境下自主、安全、可信的数据安全利用算法理论和关键技术,推动我国数据要素可信流通,助力数字经济健康发展。

扫一扫在手机打开当前页

智能问答

便民地图

政策问答

数据中心

新媒体矩阵

营商环境

微博 公开信箱 智能问答