\BiyffmAPPUGffTION±^^JE
doi:l0.3969/j.issn.1672-5166.2021.01.027
刘辉①叶荔姗①彳
文章编号:1672-5166(2021)01-0143-04中图分类号:R-058;TP311.13文献标志码:A
摘要目的单纯的以集中汇聚为主要特征的健康医疗数据应用模式,已无法满足大健康的跨部门共享的需求,迫切需要应用新技术探讨解决方案。方法在原有健康医疗数据汇聚的基础上,探讨基于分布式存储与计算技术的健康医疗数据共享应用模式的可行性。结果厦门市在实践过程中,通过应用分布式技术,摸索出一套创新性的做法。结论基于分布式存储与计算等新技术的健康数据共享应用思路,是满足未来健康数据共享应用需求的一种理想解决方案。
关键词分布式存储与计算技术健康医疗数据共享应用
Implementation of Health Data Sharing based on Distributed Storage and Computing Technology LIU Hui,YE Lishan
Xiamen Health and Medical Big Data Cerder,Xiamen361008,Fujian,China
Abstract Objective The simple health data application mode with centralized aggregation as the main
feature has been unable to meet the needs of cross-department sharing of big health,so it is urgent to apply new technologies to explore solutions.Methods On the basis of the original health data aggregation, we discuss the feasibility of the application mode of health data sharing based on distributed storage and computing technology.Results In the process of practice,Xiamen has explored a set of innovative practices through the application of distributed technology.Conclusion The idea of health data sharing application based on distributed storage and computing is an ideal solution to meet the application requirements of health data sharing in the future.皮革涂饰
Keywords distributed storage and computi ng tech no l ogy;health data;shari ng and applicati o n
0引言
2016年6月,国务院办公厅发布《关于促进和规范健康医疗大数据应用发展的指导意见》,意见指出要加强关键技术攻关,促进健康医疗业务与大数据等新技术深度融合[1];2016年10月,中共中央、国务院颁
旗杆模型
①厦门市健康医疗大数据中心,福建省厦门市,361008
作者简介:刘辉0986—),男,硕士,高级工程师;研究方向:区域口生信息化管E-mail:***************
通信作者:叶荔姗(1980-),女,硕士,主任,厦门市医药研究所所长,副教授,高级工程师;研究方向:区域口生信息化、医院信息
△通信作者
143
@中国卫生信息管理/湍卅醸JOURNiU OF HEAITH HiFORIMT瞬A ND IHIIUWGEIOT
电子优惠券
布《"健康中国2030”规划纲要》明确指出,推进健康医疗大数据应用,加强健康医疗大数据应用体系建设,推进基于区域人口健康信息平台的医疗健康大数据开放共享、深度挖掘和广泛应用叫2020年3月,中共中央政治局常务委员会召开会议提出,加快5G网络、数据中心等新型基础设施建设进度,《2020年国务院政府工作报告》提出,重点支持“两新一重”建设(加强新型基础设施建设、加强新型城镇化建设、加强交通、水利等重大工程建设)[31o这都迫切需要我们应用各类新技术,促进健康医疗大数据共享和应用。
目前,单纯的以集中汇聚为主要特征的健康医疗数据应用模式,已无法满足大健康的跨部门共享的需
求,无法实现医疗健康数据的可靠存储、安全共享、可追溯管理、不可篡改、有效隐私保护等可控的健康医疗数据价值利用。通过探索应用新技术,开展分布式存储与计算,结合区块链、联邦学习及边缘计算等新技术,建立“数据不出门、隐私不泄露、利益共分享、监管无漏洞”的大数据应用生态,是满足未来健康数据共享应用需求的一种理想解决方案。
1分布式存储与计算技术概述
所谓分布式存储,是指在数据量较大、存储服务器的地理分布较广的情况下,通过底层存储设备、分布式文件系统和存储管理软件的三级结构来完成存储资源的集中,以达成可靠数据存储的一种存储策略⑷。分布式存储将数据分散存储在多台独立的设备,并将这些分散的存储资源构成一个虚拟的存储设备,其存储系统采用可扩展的系统架构,利用数台独立的存储服务器分担存储负荷。这样不但提高了系统的可靠性、可用性和存取效率,还易于扩展。分布式计算技术,指利用互联网连接多台计算机实现共同计算、相互共享信息,这样不仅可以实现硬件资源共享,还可以实现在多台计算机上平衡计算负载,并把软件程序和算法放在最适合运行的计算机资源上。分布式计算的具体过程是:首先,将需要计算的任务先通过算法分拆成多个较小的部分;其次,由多个下级计算设备分别进行任务运算;最后,将运算结果逐级上报,统一合并得出最终运算的结果同。2基于分布式的健康数据共享应用探讨
2.1技术可行性分析
不同于单一的超级计算机,分布式存储和计算技术将网络上的各种资源,如超级计算机、大规模存储系统、个人计算机、各种设备等,组织在统一的框架下,以非常方便的方法解决复杂问题。当单台计算机系统不能满足应用的需求时,可协调使用其他计算机系统资源。分布式存储和计算技术以服务器作为中心,采用客户端和服务器架构,将计算任务分发到各个计算节点,并将计算结果从各个计算节点收集到服务器。
分布式存储和计算技术的产生是对计算资源和计算能力的需求不断增长的必然结果,分布式存储提供的大容量存储,提高了计算的效率,并基于分布式计算对提供的数据开展大数据和人工智能分析,最终将学习和分析的结果应用于各行各业。目前,分布式存储和计算技术已经在物理学、医学、药学等需要超级计算资源的科研项目上获得了巨大的突破和成果。如在气象气候、地质勘探、航空航天、工程计算、材料工程等领域,基于集的分布式存储和高性能计算,已成为必需的辅助工具,充分证明分布式存储和计算技术是完全可行的。
2.2数据所有权问题
在大数据应用过程中,采取新技术进行数据确权是非常有必要的。所谓数据确权,一般指确定数据的权利人,即谁拥有对数据的所有权、占有权、使用权、受益权,以及对个人隐私权的保护责任等问。数据的权属关系不清晰,可能造成后续开发利用中产生权属纠纷问题,更严重的是,在数据归属模糊
的情况下进行大数据分析关联,难以界定权责归属,数据安全和个人隐私难以得到保障叭大数据应用发展的终极目标是让人类更安全、更自由,保障数据主体对本人数据的占有、使用、收益和处分的权力,通过数据确权保障用户的权益,使数据的持有者变成受益者。比如:患者在掌控相应的个人健康医疗数据所有权、访问权和隐私权的基础上,通过数据确权,在享受到医疗健康服务的同时,也能获得相应的应用福利分红。
@144
\BIG DimiAPPUIMTimi大数据血用|
当前健康医疗大数据一直存在数据所有权不清的问题,各部门、各行业等数据生产单位对数据的所有权互有争议、很难达成一致。由于数据所有权存在疑义,在集中汇聚数据时,必然存在法律方面的风险。而谁有权力真正决定数据能否被使用,如何被使用,这在目前的集中汇聚平台上根本无法解决。因此,原有的集中汇聚技术必将被未来能够解决数据确权问题的新技术平台所取代。
2.3资源使用效率问题
传统的中心化汇聚存储浪费了许多硬件基础设施资源,性能不足且增加各类其他成本,而分布式存储的出现,缓解了中心化汇聚存储的资源使用压力。在分布式存储模式下,存储设备分布在不同的地理
位置,数据就近存储,并将数据分散在多个存储节点上,各个节点通过网络相连,并可对这些节点的资源进行统一的管理,解决了传统本地文件系统在文件大小、文件数量等方面的限制,减少了资源的投入。此外,在数据存储上,一方面,由于医疗信息系统技术规范、基础信息数据标准的不统一和缺失,导致集中汇聚存储后无法实现治理融合并加以有效利用;另一方面,医疗健康数据存在各类文档、影像等重数据,是典型的非结构化数据和结构化数据并存的异构数据集,海量数据的存储给中心化存储带来巨大压力,使得中心化存储系统不堪重负、成本投入极大、经济性不高,而通过分布式存储和计算平台,实现分布式存储数据的联合计算和利用,一定程度缓解了数据流通成本、提升了效率。
路灯节电>耐腐蚀泵技术2.4业务监管问题
由于健康医疗数据存在流通难、协作难、数据权责不清晰等问题,使得集中汇聚健康医疗数据变得越来越困难,难以开展有效的业务监管。数据汇聚在大集中平台以后,往往缺乏有效的监管,到底数据从哪里来、什么时候来、来了多少、存储在哪个区块,根本无从查起。针对数据的授权使用记录则更是无从下手,平台往往只是记录了某些机构获得了授权,授权后该机构可以随时访问授权的全部数据,至于数据如何使用、何时使用、用在哪些方面,数据管理人员很难实时掌握,导致数据缺乏有效的监管。
而随着目前区块链+边缘计算等新技术的发展,相关技术可有效支撑构建非拷贝状态下的数据信息共享协同计算框架,面向多类医疗集团与医联体,将传统协同不畅的医疗服务变成知识智能合约导向下,以计算为基本单位的有序调用与计量,让数据在可信环境中自由流通,实现可信数据交换和安全监管,有效解决了监管的难题。
2.5实践做法
数据共享服务是实现数据有序流动、提高数据使用效益的有效途径叫健康医疗数据构成复杂、跨部门异构数据多、集中共享困难,在原有集中汇聚的基础上实现共享应用将面临巨大挑战。厦门市在实践过程中,针对这个问题,摸索出一套创新性的做法。传统的区域卫生信息平台大都采用集中式数据存储模式,数据库多数采用关系型数据库,不适合海量数据的存储和扩展,存在着性能瓶颈,需要设计新的计算框架来提高数据处理能力。因此,厦门市在2018年便开始着手构建基于标准和Hadoop技术的电子健康档案平台体系架构,在全市大型三级医疗机构试点部署安全可信交换网关和边缘计算盒子,尝试在部分医疗重数据,如医疗影像数据分布式部署存储的基础上,实现相应的大数据应用。比如:基于算法分拆技术实现乳腺影像算法的分发与结果回传;利用大数据、人工智能等技术,实现健康档案数据的融合、治理、分析和开放共享叫基于电子健康卡打造统一身份认证体系,实现线上线下一体化的身份认证服务,推进个人精准信息的准确汇聚采集,提高了数据精度和汇聚效率[10l o
针对疫情数据具有公共性的特征,要构建以政府为主导,各行业、社会大众共同参与的重大传染病疫情数据开放生态系统,特别要强调公众的参与性口。基于此,在应对新冠肺炎疫情公共卫生重大事件期间,针对医疗机构数据采集时,存在无法完全实现数据实时采集和被动采集数据效率低等问题,厦门市创新性地利用大数据、人工智能等新技术构建全闭环疫情溯源系统,此
1451]
@中国卫生信息管理/湍卅醸JOURNiU OF HEAITH HiFORIMT瞬A ND IHIIUWGEIOT 系统集重点人摸排、医疗救治、疾控密切接触者管
理、重点人康复管理流程为一体,打破了原有数据汇聚采集方式的劣势,化被动采集为主动采集,辅之以公众主动上报,能够更好地支撑趋势研判和精准防控,经实践证明抗疫效果显著。
总的来说,以分布式存储和计算技术为基础,通过采用基于数据融合和算法分解的数据交换技术,让数据目录从中心化的存储转移到分布式目录链路存储上,原始数据不再集中汇聚,依然存放在本地,即可实现跨机构的数据安全共享应用,满足未来健康医疗大数据各类业务场景应用的要求。
3结语
综上所述,建设以分布式存储和计算技术为基础,结合区块链、联邦学习及边缘技术等新型技术,融
合网络、计算、存储、应用核心能力的数据平台,就近提供边缘智能服务,将充分满足行业数字化在敏捷连接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求,是满足未来健康医疗数据共享应用需求的一种理想解决方案。通过边缘协同计算,结合数据的按需交换和汇聚,确保分布式存储的多方数据安全计算及计算结果可验证,使得健康医疗领域的各类计算分析服务,在靠近数据源头的一侧就近提供服务,产生更快的服务响应速度,充分满足各类复杂业务场景的要求。这样既保证了各方数据的隐私和安全,又充分挖掘了健康医疗数据的价值,得到了预期计算的结果。■[1]国务院办公厅.关于促进和规范健康医疗大数据应用发展的指导意见[EB/OL].(2016-06-24)./ zhengce/content/2016-06/24/c ontent_508509l.htm.
[2]中共中央,国务院.“健康中国2030”规划纲要[EB/ 0L].(2016-10-25)./gongbao/2016-l1/20/ content_5133024.htm.
⑶国务院.政府工作报告[EB/0L].(2020-05-29).www.
[4]潘兴宇•分布式存储在云计算中的应用研究[D].武汉:武汉邮电科学研究院,2017.
[5]曹志威,尹心明,杨金云,等.基于分布式计算的证书应用审计系统[JJ.信息网络安全,2018,18(9):30-34.
[6]杜振华.大数据应用中数据确权问题探究[J],移动通信,2015,39(13):12-16.
[7]王海龙,田有亮,尹鑫.基于区块链的大数据确权方案[J].
便利贴印刷
计算机科学,2018,45(2):15-19,24.
[8]朱明东,郭芝龙,张胜,等.基于数据中心的数据共享服务体系研究[JJ.指挥信息系统与技术,2015,1(3):18-22.[刃叶荔姗,赵飞,陈坚,等.基于智能电子健康档案平台的大数据应用研究与实践[J].中国卫生信息管理杂志,2019, 16(6):672-676.
[10]叶荔姗,孙卫,徐秋实,等.电子健康卡催生健康医疗服务新业态[J].中国卫生信息管理杂志,2020,17(1):20-24.[11]储节旺,郭春侠.突发重大传染病疫情数据管理实践及其思考一以新型冠狀病毒肺炎疫情为例[J]情报理论与实践,2020,43(5):1-&
[收稿日期:2020-10-21修回0期:2020-12-27]
(编辑:李明珠)
杂走定价凋整通知
自2021年第1期起,《中国卫生信息管理杂志》定价调整为35元/期,全年杂志定价210元(双月刊,全年6期)。欢迎广大读者与作者继续订阅,感谢大家长期以来对本刊的支持I
《中国卫生信息管理杂志》社••...................................................................................................................................................................................... @146