王旭
(贵州大学大数据与信息工程学院,贵州省量子信息和大数据运用技能研讨院,贵州,贵阳 550025)
摘要:近年来,跟着大数据发掘与剖析等办法的逐步老练,人工智能技能现已在医疗范畴广泛运用。本文具体评论了在医疗数据搜集端与人工智能运用端隐私保护所面对的各项问题,从技能的视点、法令的视点以及伦理品德的视点别离剖析了医疗隐私安全,并终究提出了四条主张,为医疗职业隐私保护的理论和实践开展供给了可行途径。
要害词:医疗大数据;深度学习;卷积神经网络;人工智能;隐私保护
在医疗职业中,医院信息体系根本完成了医院内部的流程办理、数据堆集等作业,现在正面对着海量数据的应战 [1] ,医疗现已进入了大数据年代。近年来,跟着机器学习技能和人工智能的开展,大数据和医疗的结合更是被面向纵深。从图画识别 [2] 、图画检索 [3] 到杂乱疾病的确诊 [4-5] ,人工智能无一不正发挥着重要作用。跟着技能范畴的快速前进,应战也随之而来,其间最大的一个应战便是隐私保护的问题 [6] 。
1 大数据医疗年代的人工智能
大数据很早就开端为医疗职业保驾护航了,但究竟什么是大数据医疗,这儿首要做一个界说。学术界一般经过4V来描绘大数据:海量数据规划(Volume)、快速的数据流通(Velocity)、多样的数据类型(Variety)和较低的价值密度(Value) [7] 。从不同范畴动身,对大数据的了解也各不相同。在医疗范畴,这4V也相同树立:医疗数据正以前所未有的速度不断更迭(Volume);病种繁复,患者各异,医疗数据有必要快速流通(Velocity);医疗数据有文字、有印象,乃至各个医院还有各种不同格局的文件(Variety);对医疗数据的会聚通用还远远不够(Value),要想办法前进对医疗职业数据的“加工能力”,经过“加工”完成数据的“增值”。
大数据医疗伴跟着新的人工智能技能的前进而蓬勃开展,例如用人工智能来进行猜测和生成引荐体系,其间最典型的运用之一是图画剖析。目前国内确诊患者CT 图画还遍及选用两个医师一起检查的办法,当两个医师对该图画得出相同的判别时简略确定,但当两个医师得到的定论不一起则需求评论。这种办法是为了前进确诊的准确率,可是消耗人力。卷积神经网络(Convolutional neural networks,CNN)是一种典型的深度学习算法,现已在医学图画范畴具有广泛的运用。CNN能够承受各种医学图画的练习,包含放射科、病理科、皮肤科和眼科等。CNN获取输入图画,并运用简略的操作(如卷积、聚集和彻底的衔接层)将其次序转换为扁平向量,输出向量的元素表明疾病存在的概率,因而能够辅佐医师进行确诊,在很大程度上缓解医师的作业量 [8] 。别的一个人工智能的医疗大数据运用是猜测医治途径,例如经过多品种多办法数据猜测一个内伤患者发生大出血的概率,并主张采纳干涉医治,或许猜测一个重伤人员在一年内死去的概率,然后主张从传统医治转为临终关怀 [6] 。
在真实的运用场景中,人工智能辅佐医疗要经过许多的数据堆集,包含疾病确诊记载、患者用药作用、基因数据、家庭病史、行为数据乃至社会环境状况数据等。在国内,要完成上述数据堆集,最重要的壁垒是打通各个医院和社区间的数据交换同享途径。美国根据此考虑建设了一个电子健康记载体系(Electronichealth records,EHRs),十年内堆集了1000万名患者的记载。EHR的潜在运用价值是巨大的,假如好好加以运用,这相当于堆集了20万年医师的才智和1亿年的疾病状况 [9] 。在这样的技能不断日新月异的一起,咱们享用到了科技前进带来的优点。但咱们不由要问,在人工智能学习剖析大布景数据的一起,患者的隐私被侵略了吗?存在品德风险吗?咱们的现行法令能否保证咱们在医治中和医治后的权益?
2 健康隐私
个人隐私向来是一个很难界说的概念。由于个人隐私无法像上文中的大数据相同用几个“V”就能够描绘,个人隐私的界说要与其内在强相关,与行为人强相关,触及到内在溢出的意图、频率以及具体信息 [6] 。当这些相关规矩被违背时,咱们能够说个人隐私被侵略了。隐私侵略能够发生在过错的行为人触摸到信息时,或许内在溢出的意图动机不符合预设时,或许内在溢出的频率超出规守时等。健康隐私的内在包含但不限于患者的隐私在病历中的具体记载,病况、个人史、宗族史、触摸史、身体隐私部位、反常生理物征等病理和个人日子隐秘。侵略个人健康隐私是否树立不该根据信息量或目标数据集的巨细,由于即便目标不大其成果仍或许是很严峻的。在人工智能医疗运用进程中的个人隐私问题首要可出现在图1所示各环节。首要形成溢出的进程是数据会聚和人工智能运用两个环节,以下别离予以评论。
3 数据会聚的进程中发生的隐私问题
在数据会聚进程中的隐私问题首要指忧虑隐私被直接侵略的状况,或许能够了解为如图1所示输入和存储中形成的内在外溢。这能够是可猜测的成果,例如乙肝病毒库的隐私走漏或许导致当事人找作业遭到轻视。有的成果是不行猜测的,比方一个人总是忧虑自己的隐疾被走漏出去而导致精神紧张乃至引发抑郁症。也要考虑到另一种状况,便是许多隐私是在当事人不知情的状况下走漏的,比方某些公司故意搜集网络上的个人隐私状况或不合法侵略某些医疗机构数据库盗取数据,即便这些走漏数据并未被直接加以运用、给当事人带来丢失,乃至记载也已被删去,但是此种状况也应归于医疗数据安全问题,或许有潜在的损害,应该被予以注重。
数据会聚进程中的隐私问题也触及许多法令和品德问题。健康隐私数据的来历包含许多方面:电子病历、医疗稳妥、智能健康终端设备和交际媒体等。美国关于隐私安全的立法较早,1974年即经过《隐私权法》(The Privacy Act),后在2003年收效《健康稳妥带着与职责法》(Health Insurance Portability andAccountability Act, HIPAA)。经过HIPAA规则了许多EHR的隐私保护细则,对运用EHR体系也有清晰的规则,是否能够对EHR加以运用取决于信息是怎么树立的、谁在保护以及当事人状况 [10] 。我国法令暂未对个人健康隐私有进一步清晰的规范,只是在《中华人民共和国网络安全法》第四十四条强调了“任何个人和安排不得盗取或许以其他不合法办法获取个人信息,不得不合法出售或许不合法向他人供给个人信息。”以及正在审议中的《中华人民共和国根本医疗卫生与健康促进法》第二十一条说到:“国家保护与公民健康有关的个人隐私,保证个人健康信息安全。除法令法规规则或自己同意外,任何安排和个人不得获取、运用和揭露公民个人健康信息。”从这两条法令法规的比照可见,咱们的相关法令和规范还比较微观,短少对具体状况的考虑。我国在2018年5月1日开端施行的《信息安全技能个人信息安全规范》,是一部相比照较完好,从个人信息的搜集、保存、运用等视点提出保护个人信息安全应遵从的准则。但是,咱们还短少针对医疗隐私保护的具体的法令法规,现阶段在健康数据体系还没有打通的状况下对立尚不显着,一旦有了国家规模内相似美国EHR的数据同享体系,隐私保护问题将被无限扩大,咱们应该提早做好防备。
有的人会问,在数据原始搜集进程中有一个要害的问题,即为了研讨的意图或更多人的利益考虑,某些健康隐私是否可直接被脱敏后再进行存储和运用。但是首要脱敏的办法和规范没有定性,其次,现阶段的某些技能达到了即便脱敏后也能够经过多数据集的比对从头配对数据的程度,然后使脱敏失效 [11] 。
4 人工智能数据运用进程中发生的隐私问题
如图1所示,人工智能的数据输出包含多种方面,比方智能辅佐医治,猜测医治手法、精准切除以及各种基因处理办法等。在数据输出进程中的隐私安全问题不行逃避,其直接形成的一类成果便是带来轻视。例如在聘任进程中假如雇主经过某些途径的医治手法走漏得悉拟聘任人员有慢性病或一些较难医治的疾病,有很大或许会引起聘任失利,而这是违背《劳动法》的。特别是针对一类在聘任时其实并没有疾病但归于患病高风险人群(或许是基因数据的剖析成果或是家庭病史乃至社区和性取向等带来的高风险等),这样的信息走漏很显然是不公平的。最近一项针对临床试验参与者的查询发现,6.6%的参与者“十分忧虑”,14.9%的参与者“有点忧虑”,即“假如信息与我联系起来,我会遭到轻视”。但正如查询报告作者供认的,特定的特征研讨人群的片面导向,尤其是他们现已决议参与临床试验的现实,或许会影响到他们的决议然后终究影响猜测成果的准确性 [12] 。
另一类在人工智能猜测成果中发生的隐私侵略或许不会直接带来严峻的成果,但由于忧虑自己的隐私权遭到侵略,或许会使人精神紧张、浮躁乃至发生精神疾病。比方在主动比对基因库的进程中发现的一类问题或许会引致考虑他人看到会怎么办的主意,然后导致一些焦虑。
5 总结并提出主张
首要不能因噎废食,应该区别性对待隐私所有权问题。包含脱敏程度,数据运用者以及运用意图。例如疾控中心能够用流感应对数据比照医院发热患者状况,来从头查核现行流感控制措施,这样做确真实未经许可时侵略了健康隐私(未予走漏),但其意图是为潜在的发病做更好的服务。
其次须选用一些立异的办法去寻求医疗隐私问题的平衡性。新的人工智能技能不断涌现,某些隐私数据在堆集时髦不能考虑到其运用场景和运用规模,所以也不能提早寻求被搜集者的定见,而当需求运用其数据时,许多状况下难以做到逐个寻求定见,特别是在看似无害的数据运用状况下。因而,运用新的人工智能技能,在数据会聚的进程中即做好鉴别和预判数据运用权限作业,提早寻求当事人定见,则可防止许多对立。
第三,如上文所示,加强医疗数据安全范畴立法,特别是详尽的、针对信息是怎么树立的、谁在保护以及当事人状况的法令法规的树立是有急迫需求的。
最终,主张树立国家、省、市级“要害数据安全委员会”,对医疗数据怎么敞开同享,怎么断定隐私走漏职责权属以及新技能的运用等问题,起到要害指导作用。
参考文献
[1]Stanford Health. Harnessing the power of data in health. Stanford Medicine 2017 HealthTrends Report (2017).
[2]Russakovsky O,et al. Imagenet large scale visual recognition challenge. Int. J. Compute. Vis.115:211-252 (2015).
[3]Litjens G,et al. A Survey on deep learning in medical image analysis. Med. Image Anal.42:60-88 (2017).
[4]Esteva A,et al. Dermatologist-level classification of skin cancer with deep neural networks.Nature 542:115-118 (2017).
[5]Fauw J,et al. Clinically applicable deep learning for diagnosis and referral in retinal disease.Nat. Med. 24, 1342 (2018).
[6]Nicholson P II,Glenn C I.Privacy in the age of medical big data. Nat. Med. 25:37-43 (2019).
[7]魏琴,欧阳智,袁华.数融未来:图解大数据+工业交融.贵州人民出版社,贵阳,2018.
[8]Esteva A, et al. A guide to deep learning in healthcare. Nat. Med. 25:24-29 (2019).
[9]National Committee on Vital and Health Statistics and its Privacy, Security, and ConfidentialitySubcommittee, U.S. Department of Health and Human Services. Health information privacybeyond HIPAA: a 2018 environmental scan of major trends and challenges[R/OL]. https://ncvhs.hhs.gov/wp-content/uploads/2018/05/NCVHS-Beyond-HIPAA_Report-Final-02-08-18.pdf(2017).
[10]Terry N P. Existential challenges for healthcare data protection in the United States. Ethics,Med., & Pub. Health 3:19–27 (2017).
[11]Gymrek M, et al. Identifying personal genomes by surname inference. Science 339: 321–324 (2013).
[12]Mello M M, Lieou V,Goodman S N. Clinical trial participants’ views of the risks and benefitsof data sharing. N. Engl. J. Med. 378:2202–2211 (2018).
作者简介:
王旭,男,博士,贵州大学大数据与信息工程副院长,人工智能敞开立异渠道*联合学者,首要从事人工智能和量子信息相关研讨。
*注:人工智能敞开立异渠道:是由贵阳市政府与我国人工智能工业立异联盟、英特尔三方一起打造的敞开渠道。渠道结合端到端的全面技能,打造软硬件敞开立异渠道,加快工业运用立异,经过打造人工智能敞开渠道、创建人工智能立异加快器等,树立完善的技能生态、在人工智能笔直范畴运用、工业对接和市场推广等发挥各方优势和资源特征,加快我国人工智能的开展和运用立异。
本文来历于科技期刊《电子产品世界》2019年第6期第79页,欢迎您写论文时引证,并注明出处